什么是机器学习?

Michael Chen | 内容策略师 | 2024 年 11 月 25 日

近年来,机器学习已成为家喻户晓的术语。这项技术从科幻小说走进现实,如今已是企业和机构处理信息的关键驱动力。随着数据创建的速度持续呈指数级增长,机器学习工具对于希望发现模式、梳理趋势并制定高利润计划的企业而言至关重要。

机器学习有多普遍?如果您曾经点击电商网站或流媒体平台的推荐结果,收到过信用卡可能被盗用的通知,或者使用了转录软件,那么您就已经获得了机器学习带来的优势。机器学习技术可用于财务、医疗卫生、营销、零售等诸多行业,可从数据中提取宝贵的洞察并实现流程自动化。

什么是机器学习?

机器学习 (ML) 是人工智能 (AI) 的一个分支,专注于构建能够持续从数据中学习并不断进步的系统。人工智能则是一个更加宽泛的术语,指的是能够模仿人类智能的系统或机器。机器学习和人工智能这两个术语经常被人们放在一起讨论,有时甚至互换使用,但它们的含义并不相同。

简而言之,所有的机器学习都是 AI,但不是所有的 AI 都是机器学习。

关键要点

  • 机器学习是 AI 的一个子集。
  • 机器学习有四种常见的类型,分别是监督学习、无监督学习、半监督学习和强化学习。
  • 热门的机器学习算法包括神经网络、决策树、聚类和随机森林。
  • 在商业应用中,常见的机器学习使用场景包括对象识别和分类、异常检测、文档处理和预测分析。

机器学习详解

机器学习是一种技术,通过搜索超大数据集来发现数据关系,能够超越简单统计分析,发现以前未曾发现的模式和趋势。机器学习使用经过训练的复杂算法来识别数据中的模式并创建模型。这些模型可用于进行预测并对数据进行分类。

请注意,算法并不等同于模型。算法是一套用于解决特定问题或执行特定任务的规则和程序,而模型则是将算法应用于数据集的输出或结果。

训练前,您拥有的是算法;训练后,您将获得一个模型。

举个例子,机器学习在医疗卫生领域中广泛使用,主要用于医疗成像分析、预测分析和疾病诊断等任务。机器学习模型非常适合分析医学图像,例如 MRI 扫描、X 光和 CT 扫描,以识别肉眼可能无法察觉或过于忙碌的诊断医生可能遗漏的模式或异常情况。机器学习系统还可以分析症状、遗传信息和其他患者数据,为癌症、糖尿病和心脏病等疾病推荐检查项目。

机器学习的主要特点包括:

  • 自动发现模式
  • 预测可能的结果
  • 创建切实可行的信息
  • 具备分析大量数据的能力

机器学习的类型

机器学习有四种主要类型,每种类型都有不同的优势和局限性,因此根据当前特定任务选择合适的方法非常重要。

  • 监督机器学习是一种常见的类型。已标记的数据会告诉算法它应该得出什么结论。就像孩子通过在图画书中记住水果来学习识别水果一样,在监督学习中,算法是由已经标记的数据集进行训练的。监督机器学习的其中一个例子是垃圾邮件过滤器,数据集中的每个电子邮件都已经标记为垃圾邮件或非垃圾邮件,再用于训练该算法。该模型会从这些有标记的例子中学习并识别模式,然后将其用于判断新收到的电子邮件是否可能是垃圾邮件。这种监督学习需要人类专家通过标注数据来提供正确答案以供算法学习,使算法能够在未来作出准确的预测。

    需要注意的是,这里的目标并非是使用完美的数据进行训练。您需要模拟系统在现实世界中可能会遇到的情况,比如有些垃圾邮件很容易识别,但有些则较难发现或处于“灰色地带”。过于干净的数据会导致过拟合,这意味着模型只会识别其他同样完美的样本。
  • 无监督机器学习相对而言更加独立,在该模式下,计算机可以自主学习如何识别复杂的过程和模式,无需依赖已经标记的数据。无监督学习不仅基于未标记的数据进行训练,对输出结果也没有特定和明确的定义,例如判断一封电子邮件是否可能是垃圾邮件。

    无监督机器学习主要将相似数据进行归类,形成聚类。完成训练后,模型就可以识别相似的模式,并将数据归入相应的组别中。无监督机器学习的一个常见用途是推荐引擎,主要用于消费者应用中“购买了此商品的顾客还购买了这些商品”的产品推荐功能。当发现不同的模式时,该算法可以将其识别为异常,这在欺诈检测中非常有用。
  • 半监督机器学习解决了没有足够的已标记数据来完全训练模型的问题。比如说,您拥有庞大的训练数据集,但不想花费时间和金钱来标记整个数据集。通过结合使用监督和无监督方法,您可以打造一个经过良好训练的模型。训练过程一开始类似于监督学习,使用已标记数据获得初始结果,并为算法建立指导原则。当已标记数据用尽后,这个训练到一半的模型就会转而使用未标记的数据集。模型利用已有的训练成果来分析未标记数据,目标是扩充标记数据集。如果模型很有把握能够为某个样本找到合适的标签,该样本就会被添加到已标记数据集中。学习过程再度启动时,已标记样本也变得更多了。通过迭代,更多的样本将被打上所谓的伪标签,模型也可以得到进一步优化。

    强化机器学习与无监督学习类似,也使用未标记的数据集,并允许算法对数据进行评估。然而,强化学习的不同之处在于,这类机器学习会朝着一个既定的目标努力,而不是探索数据以发现可能存在的任何模式。有了目标,该算法会在试错过程中不断进步。算法会在每一步操作中收到正面、负面或中性的反馈,并使用这些反馈来完善整体决策过程。强化学习算法可以在宏观层面上朝着项目目标努力,即使这意味着要处理短期的负面结果。通过这种方式,强化学习在判断决策中的风险时也会考虑到项目目标的具体情境,因此比其他方法更擅长处理复杂和动态的情况。比如说,教电脑下国际象棋就是一个很好的例子,总体目标是赢得比赛,但在比赛过程中可能需要牺牲棋子。

哪种机器学习更符合您的需求?究竟应该选择监督学习还是在其他类型中三选一,通常取决于数据的结构和数量、训练的时间和金钱预算以及要将最终模型用于什么场景。比如,根据裙子推荐搭配的上衣,出现失误的问题不大,但要是漏诊了肿瘤,后果就严重多了。

机器学习的工作原理

顾名思义,机器学习通过创建基于计算机的统计模型来工作。这些模型会评估训练数据,针对特定目的进行优化,而不是采用传统做法,由程序员开发一个静态算法来试图解决问题。当数据集输入到机器学习模型中时,数据科学家可以通过一系列的超参数(既定变量)和学习参数(经过算法调整的变量)来评估模型输出结果的准确性并对模型进行调整。

由于该算法在评估训练数据时会进行调整,接触和计算新数据的过程会训练算法,使其在执行任务时表现得更好。该算法是项目的计算部分,而“模型”则是一个经过良好训练的算法,用于真实世界中的使用场景。

机器学习项目的范围、资源和目标将决定哪条路径更合适,但大多数都会涉及一系列步骤。

1. 收集和编译数据

训练机器学习模型需要大量高质量的数据。有时,这些数据很难寻获,如果需要标记数据,又可能会耗费大量资源。确定潜在的数据来源后,需要对其进行评估,以确定整体质量以及判断是否满足项目现有数据集成/存储库资源要求。这些数据来源构成了机器学习项目的训练基础。

2. 选择合适的算法以生成所需模型

数据科学家可以根据项目计划,选择采用监督学习、无监督学习或半监督学习。例如,采用已标注数据集的简单项目可以使用决策树算法,而聚类算法会将数据样本根据相似性进行分组,在无监督的情况下工作,需要更多的算力来确定实现目标的理想路径。

3. 优化并准备数据以进行分析

输入的数据很可能还不能直接使用。在准备过程中,数据集需要经过清理,以确保所有数据在训练期间都可以被轻松摄取。准备工作包括一系列的转换任务,例如确定日期和时间格式,根据需要合并或拆分列,以及设置其他格式参数,例如实数数据中可接受的有效数字。其他关键任务还包括清理重复记录(也称为数据去重),以及识别甚至是删除异常值。

4. 通过训练让模型学习

一旦选定了最终模型,训练过程就可以开始了。在这个过程中,已标记或未标记的精选数据集都会输入到算法中。在初始运行时,结果可能不太理想,但数据科学家会根据需要进行调整以优化性能并提高准确性。然后,我们需要再次为算法提供数据,通常数据量会更大,以便能够精准调优模型。算法所处理的数据越多,最终模型所提供的结果质量就越好。

5. 评估模型性能和准确性

在模型训练到足够准确后,就需要用模型从未接触过的数据对其进行测试,以检验其性能。一般上,用于测试的数据是训练数据集的一个子集,在初始训练后预留出来用于测试。

6. 微调并增强模型参数

此时模型很可能已接近部署阶段,使用测试数据集运行应该能够产生非常准确的结果。作为对原始训练中使用的通用数据的补充,可以使用特定数据(通常是企业运营数据)进行额外训练,对模型进行优化。

7. 部署模型

优化结果后,模型现在可以在正常生产环境中处理之前未见过的数据了。模型上线后,项目团队会搜集有关模型在现实场景中的表现的数据。这可以通过跟踪关键性能指标来实现,例如准确性、模型预测的整体正确性和召回率(即正确预测为正例的数量占所有实际正例的比例)。同时,我们还要考虑模型的预测结果对于实际业务结果的影响,了解这是否创造了价值,比如是否增加了上衣的销量?是否实现了更好的诊断?

对模型的性能进行定期审计和审查,有助于确定部署后可能出现的问题或偏差,这对于确保模型有效运行并达到预期目标至关重要。

机器学习的工作原理

机器学习算法

算法是机器学习项目的计算部分。经过训练后,算法会生成模型,有一定统计概率能够回答问题或实现目标。这个目标可能是在图像中找到某些特征,例如“识别所有的猫”,也可能是发现数据中的异常情况;这些异常可能表明存在欺诈、垃圾邮件或机器维护问题。此外,有的算法可能会尝试作出预测,例如根据当前购物车中的商品,为买家推荐他们可能会喜欢的服装。

以下是一些常见的机器学习算法:

  • 神经网络:人类大脑通过创建节点网络来工作,这些节点执行者各种功能,例如处理眼睛接收的图像、存储记忆和控制肌肉。基于计算机的神经网络模仿了这种大脑架构,创建了分层节点,这些节点会衡量所分析的数据与相邻节点数据之间的关系。作为网络协同工作时,这些节点可以确定数据的特征,例如图片中的元素。
  • 线性回归:线性回归算法主要获取数据点并构建能够支持预测结果的数学方程式,这有时被称为“最佳拟合线”。线性回归通过调整方程中的变量来尽可能减少预测中的误差。以儿科护理为例,我们可以通过不同的数据点,根据历史数据预测儿童的身高和体重。同样,身体质量指数 (BMI) 也是一种线性回归的用例,该指数试图将身高和体重与整体体脂率相关联。由于该算法使用简单的线性方程进行预测,因此错误率可能会很高。例如,BMI 指数为 30 即表示肥胖。对于普通大众来说,这种判断方法通常是正确的,但这并不适用于像美国国家橄榄球联盟 (NFL) 的线卫这样的力量型运动员。
  • 逻辑回归:逻辑回归适合用于二元结果,与线性回归类似,但需要特别考虑到可能的数据范围。逻辑回归的其中一个例子是针对潜在客户转化为付费客户的可能性进行通过/失败分析。逻辑回归常用于医学诊断,例如超出某个范围的血浆葡萄糖浓度可作为糖尿病的有力指标。逻辑回归也可以用来预测电子邮件是否是垃圾邮件,或者信用卡交易是否存在欺诈风险。
  • 聚类:聚类是一种无监督学习算法,需要向算法提供未标记的数据集,其中的数据可能属于不同的组别或聚类。在评估训练数据时,算法会搜索数据之间的模式和重叠的细节并进行分类。假设某个算法正在评估各种水果的营养价值。它可能会将水果分为三类,即柑橘类、浆果和瓜类,这样就可以更轻松地了解每个类别的特点。由此可见,聚类对于各种分类项目(例如市场细分)特别有用。
  • 决策树:决策树使用监督学习和基本的 if-then 进程来作出预测。决策树可以作为一种理想的轻资源算法,产出直接的结果,具体取决于项目的复杂程度。例如,如果一所大学想确定哪些学生可以免修大一英语课程,该校可以使用决策树算法,先了解学生在初高中是否修读了四年英语,如果答案是肯定的,再看看这些课程的平均绩点是否至少达到 3.6。另一种途径则是简单询问学生在 SAT 阅读、写作和语言部分的成绩是否高于某个阈值。
  • 随机森林:单独来看,决策树的工作流较为死板,而且必须回答所有评估问题,存在一定的局限性。在上面的决策树例子中,虽然一般只需满足其中一个条件,但该校可能会要求两个条件都必须符合。不仅如此,该校可能还需要考虑其他因素,例如学生的入学申请论文表现如何。如果需要同时满足这三个因素,该校就会面临决策树“过拟合”的问题。在三方面都表现不错的学生应该可以顺利免修英语基础课程。但是,其他水平不错的学生却仍会被要求修读这门课程。随机森林将多个决策树集合在一起,综合权衡结果并提供更全面的视角。通过随机森林,项目仍然可以使用决策树的核心机制,同时考虑到相关数据点之间的细微关系。因此,该校可以将这三个标准分别放入不同的决策树,然后根据权重来决定哪些学生可以免修英语基础课程,比如将初高中英语成绩优异设为具有高度预测性的指标,论文表现则是低预测性指标。

除神经网络外的其他算法

机器学习使用各种算法。除了上面讨论的热门算法,我们还想介绍这五种不太常见但仍然有用的算法。

梯度提升 专注于序列中先前的错误,依次构建模型。适用于欺诈和垃圾邮件检测。
K 近邻算法 (KNN) 一种简单而有效的模型,根据训练数据中近邻的标签对数据点进行分类。
主元分析 (PCA) 通过识别重要特征,降低数据维度。对可视化和数据压缩很有用,例如异常检测。
Q-learning 算法 使用通过试错学习的智能体,使其采取正确行动就会获得奖励,采取错误行动就会获得惩罚。
支持向量机 (SVM) 创建超平面,有效地分隔属于不同类的数据点,例如图像分类。

机器学习的优势

机器学习可以帮助企业从数据中提取其他方法可能无法发现的洞察。将机器学习集成到流程中,可以获得的常见优势包括:

  • 简化决策和预测分析:数据驱动的决策从数据分析开始。尽管这是显而易见的,但手动完成分析过程需要耗费大量时间和资源,可能无法获得足够的洞察来证明成本的合理性。机器学习可以通过大量数据来识别趋势和模式,让用户可以专注于查询和切实可行的结果,而不是优化手动数据处理。根据所使用的分析工具,机器学习可以基于数据生成预测并发现难以发现的洞察,有助于进行更深入的分析,为企业创造更多价值。
  • 提高效率和自动执行任务:机器学习是许多提高员工效率的技术的核心。如今,许多低认知、重复性的任务(包括拼写检查以及文档数字化和分类)都由计算机完成,这些都归功于机器学习。

    机器学习也擅长快速、即时的数据分析,这对人类来说非常困难。比如,这笔交易是否存在欺诈风险?这封电子邮件是否为网络钓鱼骗局?机器学习系统通常可以在几秒钟内准确判断,并自动采取适当的措施。通过结合机器学习技术,可以根据数据进行预测,并解释影响预测的因素,帮助高管为组织规划理想的发展路径。
  • 打造个性化和创新服务:机器学习通过个性化为客户体验提供了新途径。购买历史记录、浏览历史记录、客户画像和其他信息可用于构建客户档案,并将其与其他类似的档案进行交叉参考,以预测客户的兴趣。这样一来,企业可以提供产品推荐引擎、自动生成折扣以及其他类型的个性化互动,有助于使客户成为回头客。

    用本文讨论的术语来说,决策树有助于进行客户分类。比如,某个客户喜欢古着时尚,而另一个客户则喜欢引领潮流的设计师品牌。将相似的客户归为一类,有助于确定这类客户可能会点击查看的产品,或者他们是否可能对促销活动有较高的兴趣。然后,机器学习可以根据客户所属的聚类,为每个客户预测适合的优惠策略。

机器学习的挑战

机器学习项目的有效性取决于其构建所使用的系统和资源。这凸显了投资于适当规划和准备的必要性。

以下是机器学习项目面临的一些常见挑战:

  • 数据质量:“垃圾进,垃圾出”这句话也适用于机器学习,在训练阶段和实际应用中,数据质量都至关重要。高质量数据可及时、高效地交付更准确的结果;低质量数据则可能导致模型不准确和出现偏差。需要注意的是,“质量”对不同的项目可能有不同的定义。如果是用于训练图像识别系统,数据应呈现模型在现实世界中能够看到的图像,其中包括处于阴影中、轻微失焦以及没有直视镜头的主体。从训练角度来看,数据与系统在实际应用中遇到的数据越相似越好。

    为此,企业必须要审核数据源,将数据集转换成一致和兼容的格式,运行清理和数据去重程序,通过培训让用户了解流程和协议,并集成工具来评估质量和适配性。
  • 偏差问题:干净的数据,就不会出现偏差吗?举个浅显的例子,假设您想训练一个机器学习系统来识别图片中的狗,而您拥有的强大数据集却只有拉布拉多犬和贵宾犬的照片。完成训练后,该模型在识别这两个品种的狗方面表现出色 — 也就是说,模型在这方面可能存在偏差。但是,当给模型展示一张斗牛犬的照片时,它却表示找不到狗。这是必然的结果,因为模型没有针对斗牛犬进行过训练。

    在构建符合预期的机器学习工具时,创建合适的训练数据集是其中一个较为棘手且成本较高的环节。一旦难以获取某些类型的数据,往往就会无意中导致偏差。比如说藏獒是一种稀有犬种,看起来有点像橙棕色的纽芬兰犬。因此,如果藏獒的数据样本不足,机器学习模型将其识别为纽芬兰犬也就不足为奇了。
  • 数据安全:尽管机器学习具有许多优势,但同时也会带来一系列安全问题。机器学习分析中使用的数据可能包含不适合公开的敏感或专有信息。同样,数据可能成为网络攻击的目标,攻击者会企图污染模型,并在结果中植入错误信息。数据准备步骤尽可能暴露安全漏洞,也能解决这些漏洞,特别是在数据集在不同系统之间进行导出或导入过程时。为了缓解安全问题,企业必须采用一系列安全政策、程序和控制措施,包括对员工进行实际操作培训。
  • 数据隐私:确保敏感数据不被泄露需要持续努力。数据匿名化是一种新兴做法,但并不总是可行或足够的。比如说,假设某家企业希望提供一项服务,让商业客户可以从所收集的数据中更好地了解最终消费者。这类信息必须受到保护,并按照法律要求使用。同时,企业也需要仔细考虑新的威胁因素,这些因素可能会试图通过机器学习系统破坏数据安全。

机器学习的使用场景

机器学习可以为几乎所有行业的企业及其每个部门带来显著优势。只要有数据可供处理,机器学习就能提供新的方式来提高效率和开展新型互动。各行各业常见的机器学习使用场景包括:

  • 零售行业:对于零售商来说,机器学习可以帮助运营、销售等部门。在运营层面,机器学习可以分析供应链数据,帮助优化库存管理,并提前识别可能发生的延迟情况。为了帮助提升销售额,机器学习可以结合客户的搜索历史记录、浏览历史记录和基本信息构建客户画像,为进一步的互动奠定基础。
  • 流媒体行业:与零售商一样,音频和视频流媒体可以基于用户的互动、浏览历史记录和基本信息构建客户画像。然后,这些画像能够驱动推荐引擎,帮助用户发现感兴趣的内容并提高参与度。
  • 金融行业:机器学习其中一个强大而简单的应用场景是金融行业的欺诈检测。借助机器学习,算法可以识别账户的常规行为,识别可能是欺诈的异常行为并进一步调查。
  • 医疗卫生行业:医疗卫生行业几乎在运营的各个方面都适合应用机器学习。医疗机构可以根据电子健康记录创建患者画像,并与相似人群的模式进行对比,提前发现潜在问题。来自物联网设备(例如智能药物分配器)的数据能够快速识别错误,而患者流量或病床使用率等运营数据则可以为人员配置的灵活性提供参考。

利用 Oracle 解决方案,打造更快、更安全的机器学习

Machine Learning in Oracle Database 提供了一系列功能和特性,可加速机器学习过程。通过将数据保留在数据库内,数据科学家可以简化工作流程并提高安全性,同时利用 30 多种内置的高性能算法;对 R、SQL 和 Python 等流行语言的支持;自动化机器学习功能;以及无代码界面。

对于拥有大型数据集的企业,您可以使用 HeatWave MySQL 的数据库内机器学习,无需将数据迁移到单独的机器学习系统,有助于提高安全性、降低成本并节省时间。HeatWave AutoML 可推动机器学习生命周期自动化,包括算法选择、智能数据采样以供训练、特征选择和调优,为您节省大量时间和精力。

机器学习的优势是能够快速准确地分析和解释大量数据。经过训练后,机器学习模型可以在几秒钟或几分钟内识别出模式、趋势和洞察,而这些是人类可能需要数周才能发现的结果,甚至可能永远都无法发现。如此一来,机器学习可以帮助人类做出更明智的决策,并提高解决问题和做出数据驱动预测的能力。此外,机器学习模型也可以实现常规流程自动化,从而节省时间和资源。机器学习正逐渐发挥潜力,彻底改变职场并推动创新。

机器学习是释放数据价值的关键,也是 AI 计划成功的第一步。

机器学习的常见问题解答

AI 和机器学习有什么区别?

AI 指的是广义上的计算学科,专注于构建和完善像人类一样思考的系统。机器学习是这个领域的一个子集,主要专注于学习过程的计算方面。这两个术语通常可以互换使用,也面临着相似的挑战,但尽管有这种联系,两者仍然是相互独立的存在。

机器学习有哪四种主要类型?

机器学习的四种类型如下:

  • 监督学习:监督学习使用已标记数据集来训练算法以达到特定目标。
  • 无监督学习:无监督学习使用未标记数据集,为算法提供了探索和识别模式的空间。
  • 半监督学习:半监督学习使用已标记数据集进行初始训练,以确定项目的大概参数。然后,算法再根据初始训练结果来评估未标记的样本,看看标记是否可以取得高准确率。这个过程是可重复的,已标记的样本集会随着每次迭代而变得越来越大。
  • 强化学习。强化学习的行为与无监督学习类似,使用未标记数据集。然而,强化学习侧重于通过正面、负面和中性的反馈学习,找到实现特定目标的理想途径,而不是从数据中发现模式。

机器学习很难学吗?

与任何技术工艺一样,全面学习机器学习技术是一个反复的过程,需要投入时间和精力。学习机器学习技术的一个很好的起点是先打好编程语言基础(如 Python 或 R 语言),同时也要对统计学有一定的认识。在评估机器学习输出结果时,其中的许多要素都会涉及到回归、分类、拟合和参数等统计学概念。

机器学习有哪些示例?

机器学习的其中一个常见示例是推荐引擎。在电商领域中,“您可能也喜欢…”的产品推荐功能就是一种推荐引擎。而在视频流媒体平台中,推荐引擎会为您推荐接下来可以继续观看的内容。在这些情况下,该算法会获取用户的历史记录,并预测用户可能感兴趣的内容。用户提供的数据点越多,算法的预测结果就越精准。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。