什么是监督学习?

Michael Chen | 内容战略师 | 2024 年 7 月 17 日

监督学习是机器学习的一种形式,使用已标注数据集来训练算法。通过监督学习,已标注数据集使算法能够确定输入和输出之间的关系。算法在处理训练数据时,会识别出最终可以改进预测模型或在自动化工作流程中为决策提供信息的模式。从本质上讲,已标注数据集是供算法学习的例子,就像是在结构化教室里的学生一样。

监督学习是一系列任务和情况的理想选择。如果项目有明确的目标,监督学习可以比无监督学习更快地帮助团队完成项目,因为无监督学习算法会获取没有参数或目标的未标注数据集,并自行确定数据中的模式和关系。在监督学习中,已标注数据集可充当算法训练的指导原则。

此外,与其他形式的机器学习相比,训练监督学习算法具有处理已知数量(例如特性和结果)的优势。标准指标让训练人员能够切实了解项目的当前状态,有助于加快审查过程。

通过监督学习,企业可以获得诸多优势。通过集成高效处理大数据的能力,企业可以更快地识别模式和洞察,更及时地做出明智的决策。此外,监督学习算法可以为任务自动化工作提供支持,从而改善和加快工作流。例如,在制造过程中,机器学习算法可以使用历史数据集进行训练,以识别各种设备的典型维护周期。然后,系统可以将这些知识,与来自跟踪工具使用情况和性能的传感器的实时数据结合使用。这样一来,该算法就可以在重要零件出现磨损或寿命即将结束的迹象时发出警报,以便在工具故障导致生产线中断之前订购并更换零件。

什么是监督学习?

监督式机器学习的第一步是整理已标注的训练数据集,其中的输入和输出已经过明确、一致地识别。该算法利用这些数据来学习关系;通过学习可以形成用于预测的数学模型。训练过程采用迭代方法,会不断重复改进算法,直到模型达到所需的准确度水平。此时,我们可以使用不同的数据集来评估和确认模型是否已准备好处理实时数据。

监督学习算法通常可分为两类。

分类:分类算法会获取数据,并将输入转化为经过分类的输出。例如,用于欺诈检测的金融算法会根据信用卡客户的购买历史记录,判断新的交易是否合法、是否需要进行进一步的欺诈调查。

回归:回归算法使用已标注的训练数据集来识别输入和输出之间的更加匹配的关系,以便对新输入进行数学预测。例如,天气算法可以根据季节、近期趋势、历史模式和当前环境指标等变量来创建预测输出。

虽然监督学习是一种经过验证且有效的机器学习方法,但其中仍然存在着某些挑战。在决定是否要选择监督学习之前,团队必须先针对以下问题进行思考。

模型选择:监督学习算法的复杂性和资源密集程度各不相同。例如,决策树(本质上是决策点和可能结果的流程图)在运行时所占用的空间较少,但缺乏在复杂领域中严格保证准确性的能力。另一方面,深度神经网络在训练和生产方面需要更多资源,但最终可以进行准确的预测。找到平衡点才是项目成功的关键。

训练数据的质量:任何机器学习项目都需要来自高质量数据源的干净数据。监督学习的训练数据则需要经过准确且一致的标注,与其他训练数据源相互兼容。如果训练数据集格式不兼容,需要在训练之前应用数据集成和转换技术,这将会增加时间和金钱成本。

了解项目限制条件:预算、训练环境资源和截止日期等因素会产生实际的限制条件,决定了机器学习项目的现实情况。由于这些限制条件会影响算法的选择,因此团队应该在开始之前就确定好参数。

重要的是,对于已标注数据集的项目来说,监督学习可能是一种更为合适的机器学习方法。除此之外,团队也应该明白,当目标是基于已识别的模式做出准确的预测或决策时,监督学习效果会更好 — 例如欺诈或垃圾邮件检测,算法可以基于结果正确和不正确的示例进行训练。最后,我们也需要了解不同类型的监督学习模型,例如决策树和线性回归,从而判断模型是否适合项目。

哪种 AI 使用场景更适合监督学习?阅读电子书,了解更多信息。

监督学习的常见问题解答

无监督学习有哪些例子?

监督学习算法的其中一个例子是创建一个可以根据患者的电子健康记录预测疾病发生可能性的模型。该模型根据一组已标注的患者数据进行训练,其中包括症状、年龄、测试结果、先前存在的状况等因素。这样一来,系统就可以从患者数据中识别出哪些情况可能是未确诊的疾病,并进行更仔细的检查。

无监督学习有哪些例子?

与监督学习不同,无监督学习算法使用未标注数据集进行训练。无监督学习的目标是让算法自行探索数据并识别模式。然后,模型就可以用于处理传入数据了。无监督学习的其中一个例子是客户细分模型,从客户使用量和购买历史记录的庞大数据集中发现模式,据此将客户分组以作营销用途。

CNN 属于监督学习还是无监督学习?

卷积神经网络 (CNN) 是一种监督式学习技术,使用已标注的数据集进行训练,主要用于图像或视频分析等目的,另外也用于自然语言处理等具有类似模型的应用。CNN 通过多层来分离任务,例如识别特征/细节或应用分类,并优化计算资源。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。