机器学习中的微调简介

Jeffrey Erickson | 高级撰稿人 | 2025 年 2 月 25 日

随着人工智能 (AI) 对企业越来越有用,尤其是 AI agent 承担更复杂的工作流程,AI 微调将成为故事的重要组成部分。这些 AI agent 可以回答有关数据的问题并替我们采取行动,包括编写代码、管理日历、提供分析洞察等。在此过程中,人工智能模型必须协同工作,调查数据和文档存储,收集信息,重新检查其准确性,触发正确的操作并进行沟通。所涉及的复杂 AI 模型将在一般语言模式中精通,但它们还需要针对特定领域进行优化,并具有自己的语言,知识库等。微调流程如何帮助 AI 模型和未来的 AI agent 正确掌握细微差别和细节?下面我们将探讨 AI 模型微调的各个方面。

什么是微调?

人工智能模型微调是数据科学家和机器学习 (ML) 工程师用来调整训练有素的机器学习模型以更好地执行特定任务的过程。例如,微调可用于采用通用大型语言模型 (LLM),例如 Cohere 的 Command 或 Meta 的 Llama 2,并使其在医疗场所或客服岗位中更容易通过会话操作。

这些通用模型(有时称为“基础模型”)是基于大型通用数据集(例如几乎整个开放互联网的数据)进行训练的。这有助于他们学习和理解各种特征和模式。有些模型对语言有很好的处理能力,有些模型则可以识别和处理多模态数据,如图像、视频和音频以及文本。

微调采用这种复杂的模型,并继续对来自特定任务或业务领域的较小数据集进行培训。这使模型能够了解该领域的分类、上下文甚至是专业知识。

这个想法是将广阔的知识从模型的原始训练方案中保留下来,同时让它更好地了解 AI 模型将起作用的领域的细微差别和细节。例如,可以对通用 AI 模型进行微调以读取和讨论医学成像,也可以对 LLM 驱动的聊天机器人进行微调以提高其在客户服务中的作用。在各种域中构建高性能 AI agent 的竞争通常需要经过微调的模型。下面是对微调方法和机制的更深入的讨论

关键要点

  • AI 微调是训练通用 AI 模型的过程,为特定任务(例如情感分析、语言生成、图像检测和许多其他工作负载)提供更多上下文和知识。
  • 微调是多种方法之一,用于改进 LLM 的应用输出,包括 AI agent。
  • 与从头开始训练 AI 模型相比,微调需要更小的训练数据集。
  • 经过微调,AI 模型在特定领域(例如医疗、制造或客户服务)可以更精通、更准确。

微调的优势和挑战

团队在进行 AI 微调时面临的一个主要挑战是能否获得与其用例相关的高质量、有标签的数据—获取或创建此类数据既昂贵又耗时。例如,标记数据可能意味着在 AI 应学习识别的图像中标记区域的时间,或者标记文本部分以突出显示关键信息。尽管如此,微调仍具有令人信服的优势,使其成为现代人工智能开发中的关键技术。让我们来看看一些优点和缺点。

优点

  • 节省时间和金钱,而不是从头开始训练 AI 模型:对基础模型进行微调具有几个优势,包括显著缩短训练时间和降低计算成本,因为基础模型已经进行了大量常规训练,并且需要更少的时间和资源来适应新任务。此外,即使使用更小、特定于任务的数据集,微调也可以有效,这可以减少与数据收集和预处理相关的时间和成本。缩短的训练时间和微调的计算要求也会降低能耗,从而降低成本。
  • 为特定任务提供更好的性能:微调基础模型可以提高准确性和更快的收敛速度,而收敛是机器学习模型的错误率恒定的点,表明它不会继续通过对同一数据集进行更多训练来提高准确性。基础模型可以快速适应新任务的细微差别,数据更少,训练迭代更少。这种通用知识和任务特定学习的结合有助于模型在遇到新数据时表现良好。

缺点

  • 过拟合:当针对新数据的训练回合过于全面并且最终覆盖有助于模型的层时,就会发生 AI 微调过拟合。基础模型的一般知识和语言灵活性对于在遇到新数据时帮助其表现良好至关重要。随着过拟合,模型开始记忆训练数据,而不是学习基础模式,使它能够泛化,以便它可以处理新的例子。
  • 成本:微调 AI 模型所需的计算资源和专业知识可能成本高昂。该过程依赖于高性能 GPU 或 TPU(张量处理单元),从云技术提供商处购买或租用可能会很昂贵。聘请所需的机器学习和自然语言处理专家也很昂贵。
  • 时间:微调可能会在几个方面耗费大量时间。首先,需要准备数据,包括收集、清理、注释和格式设置。一旦微调过程开始进行,根据任务的大小和复杂性,微调可能需要数小时、数天甚至数周。时间越长,计算成本就越高。

微调的工作原理

AI 微调的工作原理是将现有模型作为起点。这些基础模型,如 Meta 的 Llama 2 或 Cohere 的 Command,通常可以从云技术提供商处获得。许多组织将从托管预训练机器学习模型的集中存储库(例如 Hugging Face、TensorFlow Hub 和 PyTorch Hub)将其他模型引入到其数据科学平台中。

从预先训练的模型开始

选择一个非常适合您任务的模型,无论是对文本进行分类、分析情感、回答问题、撰写文章、生成代码、检测对象,还是任何其他需要 AI 或 ML 的工作。

对 AI 模型进行微调需要三个基本要素:正确格式化数据的集合、正确的基础模型,以及为深度学习提供神经网络的基础设施,以及为训练方案提供动力的 GPU。这些资源通常汇编在数据科学平台或近期推出的生成式 AI 云技术服务中。

与技术一样,由于开源项目和云技术提供商开发团队的新工具和基础设施服务,随着时间的推移,AI 微调流程也变得更加容易了。这些工具和服务正在帮助自动进行微调,包括我们将讨论的复杂任务,例如超参数优化、模型选择和数据预处理。这使得该过程更容易被非专家访问。

事实上,行业观察家已经注意到,工具已经非常擅长抽象出微调的数据科学细节,困难的部分在于收集和格式化更好的数据集。这里也有为各种领域(例如医疗卫生和金融)准备的数据库,以及计算机视觉、情感分析或异常检测等功能。事实上,越来越多的趋势是将模型用于您的用例,该模型已使用这些库针对该任务进行了微调。然后,该组织可能会使用较小的数据集进行进一步微调,并可能使用检索增强生成或 RAG 架构来进一步改善 AI 输出。

公司已经找到了一种方法来补充传统的微调方法,这种方法称为强化学习。这使得 AI 模型能够通过试错和自我改进来学习,而不是使用单独的数据集标签和监督微调过程。

如何在四个步骤中微调 AI 模型

1. 使用预训练模型:第一步是选择适合任务的基础模型。自然语言处理,计算机视觉,文本生成和其他领域的流行模型。

2. 添加新数据:接下来,收集和准备特定于任务的数据集。这些可能包括有标签的客户评论或示例问题以及您的模型要解决的领域中的答案。

3. 调整:步骤 3 是根据需要调整模型。调整可能包括冻结图层以保留模型以前的学习;调整学习率,这也有助于保留模型的现有知识;以及添加学习完全新任务的图层,例如文本分类的分类层或预测的回归层。

4. 训练模型:此过程涉及通过模型馈送新数据并更新模型的参数。目标是改进模型在执行任务时的表现,同时保留对初始训练的一般知识。

微调的技术和方法

对模型进行微调时,可以从中选择一系列技术。第一个决定是需要完全微调还是选择性微调。

完全微调

完全微调是一个过程,在训练过程中更新基础模型的所有层和参数。这是一个很好的选择,当你有一个庞大而多样化的数据集,可以充分更新模型的参数,而不会有过拟合的危险。

选择性微调

选择性微调仅涉及使用较小的数据集更新模型层或参数的子集。这种方法有利于保持基础模型的一般知识,降低培训制度的时间和计算成本。下面是用于选择性微调的技术示例。

  • 数据扩充:这涉及通过应用转换从现有数据集生成其他训练数据。对于图像,转换可能包括旋转、缩放、裁剪或添加噪声。当特定于任务的数据集较小时,这可以提高微调性能。
  • 提前停止:此技术用于在验证集上的性能停止提高时监视和停止训练。这有助于提高效率,并有助于防止过度拟合。
  • 组合方法:此方法将几个经过微调的模型组合在一起,以减少模型输出中的方差。
  • 微调特定层:此技术通过仅调整深度神经网络的浅层,同时锁定或冻结更深层来提高微调的效率。
  • 超参数调优:这包括用于调整微调流程特征的各种技术,例如学习率或批处理大小。
  • 层冻结:在此处,负责基本和通用理解的基础模型中的层被锁定。这有助于防止过度拟合,即模型基本上记住了训练数据,而不是学习允许其正确处理新数据的通用模式。
  • 学习率计划:较慢的学习率有助于对基础模型的参数进行更细微和精确的调整。随着时间的推移,该过程逐渐降低学习率或步长,通过在接近理想解决方案时采取更小的步骤来帮助模型更有效地学习新材料。
  • 正则化技术:这些技术专门用于防止过拟合。
  • 迁移学习:这涉及在特定于特定任务的较小数据集上进一步训练基础模型。

微调与从头开始训练

在某些使用场景中,从头开始设计和训练 AI 模型是有意义的。但是,在大多数情况下,组织可以通过微调基础模型来获得所需的结果。

在少数情况下,从头开始训练 AI 模型是更好的选择。一个例子是,你正在使用的领域非常严格,例如具有非常具体的图像数据的利基医疗应用程序。从头开始的培训要求您组装大型数据集,并在特定于 AI 的基础设施上运行长时间的培训。这可能非常昂贵,需要多达数千个 GPU 和数百万美元。这也是一项需要数据科学家和机器学习工程师专业知识的任务。

另一方面,对 AI 模型进行微调涉及采用基础模型,并使用较小、特定于任务的数据集将其调整为特定任务。这个过程通常更快,更高效,因为模型从语言和一般知识的坚实基础开始,只需要根据新任务的细微差别进行调整。这可以提高 AI 模型的性能以满足您的需求,所需的组装和数据准备工作以及训练轮次都比从头开始训练更少。详细了解以下微调的优势。

微调的常见使用场景

各行各业的公司,从初创公司到跨国公司,都在微调预先训练的模型。事实上,对于任何希望使用 AI 的组织来说,它正在成为一种标准做法,因为它允许他们部署符合其特定需求的系统,而无需进行大规模模型训练所需的巨额投资。下面是一些用例示例。

真实示例

财务、物流、医疗卫生和许多其他领域工作的组织正在为日常运营提供经过微调的生成式 AI。这些真实案例将帮助您探索各种实时用例。下面是三个具体的示例:

  • 客户支持:一家工业安全解决方案公司实施了 AI 驱动的工具,立即改善了客户支持运营。该团队使用经过微调的 Cohere Command R+ LLM 来处理客户查询并生成准确的响应。
  • 医疗卫生:大学研究人员正在使用 AI 更深入地了解患者数据,以帮助设计新的癌症疗法。他们使用云基础设施来大规模托管、运行和微调 LLM。
  • 服务行业:巴西的一家应用 AI 公司对 LLM 进行微调,以帮助记忆疗法,这是一种经过验证的心理治疗方法,可帮助认知能力下降的患者。

微调的下一步计划

AI 微调正在迅速发展,特别是随着更多的 AI agent 依赖于微调的模型。未来将带来更多的自动化、新技术和更广泛的模型选择,帮助企业根据自己的需求调整 AI 模型。

这些创新包括改进的机器学习服务,可自动进行微调,包括超参数优化、模型选择和数据预处理。我们预计,情境感知的数据增强技术将帮助模型更快地学习更相关的功能,动态学习将允许模型实时调整其学习率。机器学习和基础模型构建者也将继续发布功能更丰富、功能更强大的模型,这些模型可以跨不同模式传输知识,并可以进行微调以执行需要了解多种类型数据的任务。诀窍在于构建数据基础设施,使其具备足够的通用性,以便在新创新到来时充分利用这些创新。

使用生成式 AI 解决方案增强 AI 模型

您是否知道 Oracle Cloud Infrastructure (OCI) 可让您访问微调机器学习和基础模型所需的功能?Oracle 在完全托管的服务中提供物理基础设施、数据处理基础设施、数据科学平台和生成式 AI 服务。例如,OCI 的生成式 AI 服务通过易于使用的服务与通用 LLM 实现简单、无缝的集成。您可以使用该服务,针对各种用例(包括辅助写作、总结、分析和聊天)微调模型。

同时,您的数据科学家和机器学习工程师可以利用 Oracle 数据科学平台,利用 Python 和开源工具协作构建、训练和部署机器学习模型。基于 JupyterLab 的环境提供了使用 NVIDIA GPU 和分布式训练进行实验、开发模型以及扩展模型训练所需的所有资源。利用 ML 操作 MLOps 功能(如自动化管道、模型部署和模型监视)将模型投入生产环境,确保模型正常运行。

对人工智能模型进行微调只是利用这项技术获得竞争优势的一种方式。了解企业可以受益的更多方式。

微调的常见问题解答

微调与其他类型的模型训练有何不同?

微调 AI 模型不同于从头开始训练 AI 模型。这是将几轮训练添加到复杂的基础模型的过程,从而在特定任务中产生与上下文更相关的输出。与从头开始构建和训练模型相比,微调通常需要更少的数据,而且比构建和训练模型更耗时、成本更低。

是否可以将微调与任何类型的模型一起使用?

AI 微调可以与各种用例的基础模型一起使用,无论是图像识别、文本分类、语言生成、音频输出还是其他输出。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。