什么是强化学习？

Michael Chen | 内容策略师 | 2024 年 4 月 3 日

本文目录

什么是强化学习？
强化学习的常见问题解答

强化学习是机器学习 (ML) 的一种形式，支持人工智能 (AI) 模型根据积极、中立和消极的反馈来完善决策过程，有助于判断是否在类似情况下重复行动。不同于监督式和非监督式学习，强化学习发生在探索性的环境中，开发人员往往会追求一个既定的目标。

在强化学习中，该算法使用专注于特定结果的未标注数据集。算法在探索数据集的每一步都会产生反馈，无论是积极的、消极的还是中性的。这种反馈是学习过程的“强化”部分 — 随着反馈的积累，这些反馈将能够支持决策，比如选择朝着积极的路径前进或避开消极的路径。最终，该模型能够判断可获得结果的理想策略。由于算法考虑了更大范围的主要目标，所以这条路径可能包含一个延迟满足的过程，积累较小的负面后果，从而实现预期结果。

如果这听起来很熟悉，那是因为强化学习模仿了自然学习的过程。赞扬和奖励以及负面后果决定了发展中的思维界限，强化了与世界互动和在世界中取得成功的准则，无论是幼小的动物捕猎还是人类小孩学习认符号都是如此。由于强化学习类似于现实世界的学习，因此适用于复杂和开放式的场景，在这些场景中，长期战略可能比直接结果更重要。

在充满规则、限制以及连接或动态关系的环境中，强化学习可通过促进对行动后果的理解，为决策模型带来细微差别。在技术层面上，强化学习提供了比监督学习更多的灵活性，因为它不依赖于已标注数据集。相反地，模型通过实验来学习，创造出一种适应性，从而在整个成功领域中实现更广泛的解决方案。这些模型可以适应环境。

什么是强化学习？

强化学习指的是模型根据积极、中立和消极强化来完善其决策过程。在多种情况下，这是训练机器学习模型的有效选择。当目标是了解成功结果背后的策略，而不是产生更简单的决策树时，强化学习尤其合适。

举个例子，如果 AI 模型在游戏中成功通关，就会获得积分奖励或升级。另一方面，中立强化是指没有给予奖惩的情况，通常在模型的行为对总体目标或目标没有重大影响时使用。消极强化则是在模型执行不良行为或未能达到预期结果时进行惩罚。例如，如果 AI 在游戏中做出了不被允许或不成功的行为，就会受到扣分或降级的惩罚。

强化学习的理想使用场景包括：

游戏：早期的国际象棋电脑对弈游戏是基于一系列 if/then 规则构建的。通过强化学习，该模型可以接收更广泛、更有机的情况、选择和结果，从而创建一个复杂的决策过程，形成更强大的 CPU 对手。
生成式 AI：强化学习可以作为生成式 AI 模型的机器学习基础的一部分。无论模型是生成图像、文本还是音频，强化学习都能够通过试错法来确定和改进提示和输出的准确性。
营销：每一次营销互动都是一个强化学习的机会。无论客户是打开网页、点击网页还是停留在网页上，都可以提供积极和消极的强化，从而反馈到模型中，创建更准确的客户档案。
推荐引擎：推荐模型通过每次推荐的参与行为获得积极的强化。这将有助于识别模式，打造更精确的客户档案模型。
自动驾驶汽车：通过在受控和模拟环境中学习，自动驾驶汽车模型可以深入了解情境复杂的情况。在驾驶过程中，需要考虑到距离、速度、天气和危险等因素并做出许多即时决策，强化学习可以通过一系列响应来完善模型中的决策。

在所有这些使用场景中，训练的初始阶段就像是一个开始了解世界的宝宝。到了生产阶段，模型已经“长大了”，一般能够像成年人一样做出准确的决定，不断学习以提高准确性，通过适当的环境和资源，甚至还能够掌握某个领域，无论是在玩棋类游戏还是提供客户感兴趣的推荐方案。

AI 不仅能帮助 CIO 更好地分析数据，优化云支出，还能提供代码改进建议，尽可能降低数据出站需求。了解如何充分利用 AI 的力量来解决人才和安全性等难题。

获取电子书

强化学习的常见问题解答

强化学习是机器学习还是人工智能？

强化学习是一种机器学习技术，可用于训练系统基于接收积极、中性和消极反馈做出决策。使用强化学习的机器学习模型可以作为更强大的 AI 模型的一部分，模拟人类对特定条件或情况的反应。

强化学习有哪三种主要类型？

强化学习的三种主要类型是：

基于模型：为模型创建一个环境，让模型自由探索以确定参数，从而制定理想的成功之路。
基于策略：在模型确定哪种策略能够取得更好的结果之前，需要检查潜在策略（政策）、行动（价值观）和结果之间的关系。
基于值：在模型确定哪个值能够取得更好的结果之前，检查与特定操作（值）相关的当前环境。

监督式学习和强化学习有什么区别？

监督式学习使用已标注数据集来训练模型，以便能够准确地实现预期结果。强化学习使用一种更具探索性的方法，为模型提供了一个开放的环境来探索不同的策略和选择，直到达到预期的结果。

注：为免疑义，本网页所用以下术语专指以下含义：

除Oracle隐私政策外，本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。