6 大常见 AI 模型训练挑战

Michael Chen | 内容策略专家 | 2023 年 12 月 20 日

在 AI 项目领域,每一个模型训练过程都是不同的。具体而言,AI 模型训练会受到范围、受众、技术资源、财务,甚至是开发人员工作速度和技能的影响。这就带来了一系列的复杂挑战。

不过,即使每一组 AI 模型训练挑战都各不相同,有一些问题是普遍性的。本文将带您了解 AI 模型训练的常见挑战并为开发团队和整个组织提供相应的解决方案和变通方法。

为何 AI 模型训练如此艰难?

如今,尽管 AI 相关的资源快速增长,但 AI 模型训练过程依旧是困难重重,挑战不断。其中,一些问题还会迅速引发一系列新问题:随着资源可用性提高,性能增强,AI 模型会越来越复杂,它们准确吗?可以扩展吗?

关键要点

  • AI 模型训练挑战不止是技术问题,还涉及组织的方方面面。
  • AI 模型训练的技术挑战一般可通过增强训练数据集或添加更多云资源(以获得更多算力)予以解决。
  • 应对 AI 模型训练挑战离不开技术专业知识、灵活的流程以及优良的利益相关者协作文化。

6 大常见 AI 模型训练挑战

从最初定义项目范围到最终上线部署,AI 模型训练离不开组织内各个部门的齐心协作和共同努力。在技术层面上,IT 部门需要了解硬件基础设施要求,数据科学家需要解决训练数据集获取问题,开发人员需要斟酌其它软件和系统投资

在组织层面上,AI 项目的类型决定着它将影响哪些运营部门,例如营销、销售、HR 以及其他团队都可能参与 AI 项目的目的、范围和目标定义过程。

这就导致 AI 模型训练这间“厨房”里挤满了“厨师”。厨师越多,制约因素和变量就越多,组织面临的挑战也就越多。以下是 AI 模型训练过程面临的 6 大常见挑战。

AI 模型训练不仅面临技术挑战,还面临组织问题。以上是当今组织面临的常见 AI 模型训练挑战。

此图展示了 AI 模型训练的 6 大常见挑战:

  • 硬件和软件:硬件资源/功能有限,软件不兼容
  • 算法:AI 模型类型选择;算法过拟合或欠拟合
  • 数据集:数据不足、不均衡或质量差
  • 人才库:训练有素的 AI 人员短缺,人才市场竞争激烈
  • 项目管理:部门间沟通不畅,预期不一致
  • 数据管理:组织内存在安全性、隐私保护、访问以及所有权问题

1. 数据集挑战

训练数据集是所有 AI 模型的基石。也就是说,训练数据集的质量和广度决定着 AI 输出结果的准确性。AI 模型训练面临的数据挑战包括:

  • 数据不均衡:非均衡数据会导致偏差。例如,当一个服装零售商 AI 模型仅接受鞋类数据训练时,它将无法处理衬衫和连衣裙选码场景下的特有变量。
  • 数据不足:当仅使用少量数据训练 AI 模型时,AI 模型的预测准确性将极其有限。换言之,AI 项目需要充足的训练数据来优化结果,消除偏差,否则就会像驾车出行时地图上却只有一小段路线一样。
  • 数据质量不佳:非均衡数据会导致 AI 预测和结果偏差,劣质数据更是会造成结果完全失实。因此,AI 项目的第一步就是谨慎选择数据源,这一点至关重要。

2. 算法挑战

如果说训练数据集是 AI 模型的基石,那么算法就是“主干”。为了确保 AI 模型始终输出准确结果,开发人员必须根据项目需求谨慎创建和训练算法。

  • 选择适当的算法:哪个算法最适合您的项目?组织可从一系列广泛的算法中按需选择,而这些算法分别有自己的优势和不足。例如,逻辑回归算法有利于快速推进项目,但却只能提供二进制结果。在选择算法时,组织需要综合考虑 AI 项目的范围、结果和资源要求。
  • 过拟合:过拟合指 AI 模型过分“适应”特定结果,以至错失本应处于范围以内的其它结果。很多原因都会导致过拟合,例如训练数据集规模过小;训练数据集同质性过高;模型过于复杂以至引发了误解和“数据噪音”。
  • 欠拟合:欠拟合即 AI 模型只能在极其有限的情况下输出正确结果,它意味着 AI 模型需要接受进一步训练。欠拟合的一个常见表现是 AI 模型在初始训练数据集上表现良好,但却在进一步验证和真实数据上表现糟糕。之所以发生欠拟合,一个常见原因是 AI 模型对于 AI 项目的目标来说过于简单,或者开发团队未能提前正确清洗训练数据集。

3. 硬件和软件挑战

在为 AI 模型训练提供支持时,IT 部门可能面临硬件和软件挑战。为保障 AI 项目顺利推进一直到结束,IT 部门需要提供充足的算力和存储容量、数据资源以及兼容性和集成工具。

归根到底,AI 模型训练离不开大型数据集。为此,IT 部门需要确保训练人员拥有足够的数据存储空间;必要的访问权限;一个行之有效的数据管理系统;以及良好兼容的软件工具和框架。

  • 硬件资源:对于大型数据集的处理和分析,IT 部门必须确保相关团队拥有足够的高性能服务器和存储系统,尤其是在复杂 AI 模型(例如医学研究)场景下。换言之,组织需要按照 AI 项目范围的要求提供充足的资源,满足 AI 模型训练极其庞大的算力要求。
  • 软件注意事项:AI 模型训练要求集成大量的专用软件工具、框架和系统,既包括上游的,也包括下游的。这些专用工具与现有 IT 系统的集成工作可能十分复杂,因此在项目之初进行兼容性检查至关重要。

4. 专业人才挑战

AI 模型训练的开发、管理和迭代离不开拥有各种专业技术技能的专业人才。任何一个领域的经验缺失都有可能导致训练过程失败,导致最终不得不完全重启项目。

  • AI 人才的市场需求旺盛:为了组建一支优秀的开发人员和数据科学家团队,组织需要采取明智措施来招聘人才。然而,目前市场对 AI 和机器学习技能的需求依旧十分旺盛,这要求组织构建一个富有竞争力的招聘流程。组织需要在发现一个优秀人才后快速行动,需要时刻掌握最新市场动态。为了吸引优秀人才,组织需要对外展示自己专注于技术(例如创建一个 AI 卓越中心)。
  • 训练有素的 AI 人才短缺:如果组织在缺少一支强大的开发团队的情况下启动 AI 项目,很长一段时期内 AI 输出结果都会失实或存在偏差 — 如果项目能够完成的话。没有训练有素的 AI 人才,AI 项目只会白白浪费时间和资金,因此组织务必要做好人才和技术投资准备。

5. AI 项目管理挑战

企业级 AI 项目属于成本和资源密集型项目。除了模型开发、数据源整理和 AI 模型训练这些直接问题外,AI 项目管理还需要均衡考虑财务、技术和调度问题。

  • 沟通不畅:在所有行业中,行之有效的项目管理都离不开顺畅沟通,但 AI 项目管理人员需要与多个团队对接,包括 IT、法律、财务,甚至是最终用户。沟通不畅会导致各种问题及连锁反应,导致组织在准确性、时间和资金上付出不必要的代价。
  • 预期不一致:流行文化让人们对 AI 产生了不切实际的期望。为了消除这种过高的期望,团队领导需要就 AI 项目的目的、目标和作用进行有效沟通,否则用户可能无法正确认识 AI 项目的实用性或局限性。

6. 数据管理挑战

AI 训练过程的每个阶段都面临不同的数据安全问题,这给数据管理带来了一些挑战。

  • 数据访问和所有权:谁拥有数据访问权限?谁可以查看训练结果?谁策划、归档和管理训练过程?所有这些问题都必须得到妥善解决。如果没有一个适当的数据管理策略,例如基于角色的访问控制,项目进程可能在最细微的环节上受阻,导致组织陷入安全问题的泥潭。
  • 数据隐私保护和安全性:训练数据集可能含有敏感数据,例如个人可识别信息、财务信息和敏感的企业计划。为确保隐私安全,组织可能需要对训练数据和输出数据进行加密和/或清洗。此外,AI 模型在训练和部署过程中还可能面临常见的网络安全问题,尤其是在 AI 项目涉及公共或外部资源时。

应对 AI 模型训练挑战

在 AI 模型训练过程中,可能会面临方方面面的挑战。硬件资源、算法实用性或数据集这类技术问题会让开发人员苦思冥想“怎样才能做到这一点?”。

要应对这些挑战,组织需要制定明智的计划,需要明智地使用资源,更需要推动各方频繁、全面、包容地交流和沟通 — 这一点或许是最重要的。

此外,合理运用技术也能助组织一臂之力。

技术解决方案

AI 模型训练过程中的技术障碍可能是多种原因造成的。在某些情况下,AI 模型的资源需求可能超出了组织的供应能力。还有些时候,可能是未正确进行训练数据集准备;或者缺乏足够的训练数据集。以下 3 项技术可帮助组织应对常见技术挑战。

  • 数据增强:当 AI 模型训练需要更多训练数据集或要求更高水平的数据集多样性,组织却无法提供更多资源时,AI 项目团队可以通过数据增强来自己生成资源。数据增强是指手动增强数据集来进一步训练 AI 模型 — 有时会围绕着一个特定目标。
  • 正则化:过拟合是 AI 模型训练过程中最常见的一个问题。正则化可对培训数据集中的此问题发挥补偿作用。利用正则化,AI 模型能够通过各种优化措施来创建更简单、更准确的输出,以此进行校准,补偿过拟合。目前,常见的正则化技术包括岭回归、Lasso 回归和弹性网络回归。
  • 迁移学习:迁移学习支持开发人员使用既有算法来跳过多个步骤。迁移学习的成功取决于多项因素。首先,需要一个切实可行的既有模型,该模型既拥有类似训练过程的成功先例,又足够灵活,能够适应新 AI 项目需求。其次,项目的范围和目标必须适应既有工作。

组织解决方案

对于任何组织来说,成功的 AI 模型不仅仅需要专业技术知识。AI 模型训练过程需要一系列利益相关者协力解决问题,包括财务和项目目标这样的非技术问题。换言之,AI 项目的成功离不开整个组织的参与。因此,“构建统一战线”就成为了很多组织的一个挑战。

以下实用方法有助于构建更顺畅的组织流程。

  • 建立清晰的沟通渠道:AI 项目需要来自各团队的多样化技能。然而,各个团队常常无法紧密合作。因此,有必要围绕项目目标、范围和工作步调建立开放、清晰的沟通机制,这样组织可以团结各个团队,消除混乱以及随之而来的重复性工作或步骤遗漏。
  • 构建协作文化:AI 项目的成功需要拥有不同视角的多方利益相关者共同努力。而要想将各方人员凝聚在一起,组织需要建立优良的协作文化。对于创造性解决方案,组织需要确保各方都能自由发表意见并友好地进行建设性讨论。
  • 鼓励持续学习:得益于算力和云访问性技术格外快速的发展,AI 功能在过去 10 年里取得了巨大进步。随着新功能、新技能和新策略不断问世,只有持续学习才能始终掌握最新动态。为此,各个团队需要在推进当前项目的同时密切关注未来发展方向。

使用 Oracle 解决方案应对 AI 模型训练挑战

AI 模型训练挑战不仅是技术上的,还有可能是组织上的。对于这些挑战,Oracle Cloud Infrastructure (OCI) 可助组织一臂之力。它提供可扩展的计算和存储资源,即使是大型数据集和复杂模型也能确保训练过程顺利进行。它还提供纵深安全和治理工具,能够有效满足最新的隐私保护和安全要求。

此外,OCI 还支持数据共享且能够打通数据源,可有力促进部门间协作和沟通,提高开发过程的透明性。凭借全面的计算、存储、网络、数据库和平台服务,OCI 能够为 AI 模型训练提供强大、灵活的支持并降低项目和组织成本。

当组织坚持不懈,最终克服 AI 模型训练的固有挑战后,AI 项目将带来巨大回报。基于 AI 技术提供的深度洞察,组织可以提高自动化水平,构建领先竞争优势,甚至是开发前所未有的新产品和新服务。

IT 团队、项目经理和高管都能获得适当的工具来应对 AI 模型训练挑战以及其它特定问题,然后专注于创造性思维和工作。

通过在启动 AI 模型训练项目前构建一个 AI 卓越中心 (CoE),组织可以更有力地推动 AI 项目成功。阅读电子书,了解为何以及如何构建一个行之有效的 CoE。

AI 模型训练挑战常见问题解答

迁移学习将如何提高 AI 模型的准确性?

AI 模型迁移学习是指使用一个既有模型作为新 AI 项目的起点。它虽然有很多局限性,但却能让项目有一个良好的开端。当既有模型是针对一般性问题,新 AI 项目关注细节问题时,迁移学习的效果最理想。随着 AI 功能趋向复杂,迁移学习的起始点和结束点应相应放宽。

组织应如何促进 AI 模型训练团队成员之间的协作?

AI 项目通常需要拥有不同技能的团队密切协作。为了促进协作,领导者需要鼓励各方利益相关者开放沟通、积极献策和进行建设性讨论,鼓励各方人员持续学习。通过着重解决“我们如何以及为何聚在一起?”这一问题,同时积极关注未来可能性,组织可以显著增强团队间凝聚力和团队间沟通。

组织应如何突破 AI 模型训练过程中的硬件和软件限制?

组织可采用多种方法突破硬件和软件限制。有些问题可在组织内部解决,例如安排经验更丰富的人员来评估和定义模型,或者完善训练数据集 — 它们可能需要适当的清洗和准备,以减少对资源的影响。有些问题可利用外部资源解决,例如使用云基础设施平台来帮助各个团队更轻松、更灵活地扩展,满足计算需求。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。