什么是强化学习?

Michael Chen | 内容策略师 | 2024 年 4 月 3 日

强化学习是机器学习 (ML) 的一种形式,支持人工智能 (AI) 模型根据积极、中立和消极的反馈来完善决策过程,有助于判断是否在类似情况下重复行动。不同于监督式和非监督式学习,强化学习发生在探索性的环境中,开发人员往往会追求一个既定的目标。

在强化学习中,该算法使用专注于特定结果的未标注数据集。算法在探索数据集的每一步都会产生反馈,无论是积极的、消极的还是中性的。这种反馈是学习过程的“强化”部分 — 随着反馈的积累,这些反馈将能够支持决策,比如选择朝着积极的路径前进或避开消极的路径。最终,该模型能够判断可获得结果的理想策略。由于算法考虑了更大范围的主要目标,所以这条路径可能包含一个延迟满足的过程,积累较小的负面后果,从而实现预期结果。

如果这听起来很熟悉,那是因为强化学习模仿了自然学习的过程。赞扬和奖励以及负面后果决定了发展中的思维界限,强化了与世界互动和在世界中取得成功的准则,无论是幼小的动物捕猎还是人类小孩学习认符号都是如此。由于强化学习类似于现实世界的学习,因此适用于复杂和开放式的场景,在这些场景中,长期战略可能比直接结果更重要。

在充满规则、限制以及连接或动态关系的环境中,强化学习可通过促进对行动后果的理解,为决策模型带来细微差别。在技术层面上,强化学习提供了比监督学习更多的灵活性,因为它不依赖于已标注数据集。相反地,模型通过实验来学习,创造出一种适应性,从而在整个成功领域中实现更广泛的解决方案。这些模型可以适应环境。

什么是强化学习?

强化学习指的是模型根据积极、中立和消极强化来完善其决策过程。在多种情况下,这是训练机器学习模型的有效选择。当目标是了解成功结果背后的策略,而不是产生更简单的决策树时,强化学习尤其合适。

举个例子,如果 AI 模型在游戏中成功通关,就会获得积分奖励或升级。另一方面,中立强化是指没有给予奖惩的情况,通常在模型的行为对总体目标或目标没有重大影响时使用。消极强化则是在模型执行不良行为或未能达到预期结果时进行惩罚。例如,如果 AI 在游戏中做出了不被允许或不成功的行为,就会受到扣分或降级的惩罚。

强化学习的理想使用场景包括:

  • 游戏:最早的计算机国际象棋棋手是基于一系列 if/then 规则构建的。通过强化学习,该模型可以接收更广泛、更有机的情况、选择和结果,从而创建一个复杂的决策过程,形成更强大的 CPU 对手。
  • 生成式 AI:强化学习可以作为生成式 AI 模型的机器学习基础的一部分。无论模型是生成图像、文本还是音频,强化学习都能够通过试错法来确定和改进提示和输出的准确性。
  • 营销:每一次营销互动都是一个强化学习的机会。无论客户是打开网页、点击网页还是停留在网页上,都可以提供积极和消极的强化,从而反馈到模型中,创建更准确的客户档案。
  • 推荐引擎:推荐模型通过每次推荐的参与行为获得积极的强化。这将有助于识别模式,打造更精确的客户档案模型。
  • 自动驾驶汽车:通过在受控和模拟环境中学习,自动驾驶汽车模型可以深入了解情境复杂的情况。在驾驶过程中,需要考虑到距离、速度、天气和危险等因素并做出许多即时决策,强化学习可以通过一系列响应来完善模型中的决策。

在所有这些使用场景中,训练的初始阶段就像是一个开始了解世界的宝宝。到了生产阶段,模型已经“长大了”,一般能够像成年人一样做出准确的决定,不断学习以提高准确性,通过适当的环境和资源,甚至还能够掌握某个领域,无论是在玩棋类游戏还是提供客户感兴趣的推荐方案。

AI 不仅能帮助 CIO 更好地分析数据,优化云支出,还能提供代码改进建议,尽可能降低数据出站需求。了解如何充分利用 AI 的力量来解决人才和安全性等难题。

强化学习的常见问题解答

强化学习是机器学习还是人工智能?

强化学习是一种机器学习技术,可用于训练系统基于接收积极、中性和消极反馈做出决策。使用强化学习的机器学习模型可以作为更强大的 AI 模型的一部分,模拟人类对特定条件或情况的反应。

强化学习有哪三种主要类型?

强化学习的三种主要类型是:

  • 基于模型:为模型创建一个环境,让模型自由探索以确定参数,从而制定理想的成功之路。
  • 基于策略:在模型确定哪种策略能够取得更好的结果之前,需要检查潜在策略(政策)、行动(价值观)和结果之间的关系。
  • 基于值:在模型确定哪个值能够取得更好的结果之前,检查与特定操作(值)相关的当前环境。

监督式学习和强化学习有什么区别?

监督式学习使用已标注数据集来训练模型,以便能够准确地实现预期结果。强化学习使用一种更具探索性的方法,为模型提供了一个开放的环境来探索不同的策略和选择,直到达到预期的结果。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。