Michael Chen | 内容策略师 | 2024 年 11 月 25 日
近年来,机器学习已成为家喻户晓的术语。这项技术从科幻小说走进现实,如今已是企业和机构处理信息的关键驱动力。随着数据创建的速度持续呈指数级增长,机器学习工具对于希望发现模式、梳理趋势并制定高利润计划的企业而言至关重要。
机器学习有多普遍?如果您曾经点击电商网站或流媒体平台的推荐结果,收到过信用卡可能被盗用的通知,或者使用了转录软件,那么您就已经获得了机器学习带来的优势。机器学习技术可用于财务、医疗卫生、营销、零售等诸多行业,可从数据中提取宝贵的洞察并实现流程自动化。
机器学习 (ML) 是人工智能 (AI) 的一个分支,专注于构建能够持续从数据中学习并不断进步的系统。人工智能则是一个更加宽泛的术语,指的是能够模仿人类智能的系统或机器。机器学习和人工智能这两个术语经常被人们放在一起讨论,有时甚至互换使用,但它们的含义并不相同。
简而言之,所有的机器学习都是 AI,但不是所有的 AI 都是机器学习。
关键要点
机器学习是一种技术,通过搜索超大数据集来发现数据关系,能够超越简单统计分析,发现以前未曾发现的模式和趋势。机器学习使用经过训练的复杂算法来识别数据中的模式并创建模型。这些模型可用于进行预测并对数据进行分类。
请注意,算法并不等同于模型。算法是一套用于解决特定问题或执行特定任务的规则和程序,而模型则是将算法应用于数据集的输出或结果。
训练前,您拥有的是算法;训练后,您将获得一个模型。
举个例子,机器学习在医疗卫生领域中广泛使用,主要用于医疗成像分析、预测分析和疾病诊断等任务。机器学习模型非常适合分析医学图像,例如 MRI 扫描、X 光和 CT 扫描,以识别肉眼可能无法察觉或过于忙碌的诊断医生可能遗漏的模式或异常情况。机器学习系统还可以分析症状、遗传信息和其他患者数据,为癌症、糖尿病和心脏病等疾病推荐检查项目。
机器学习的主要特点包括:
机器学习有四种主要类型,每种类型都有不同的优势和局限性,因此根据当前特定任务选择合适的方法非常重要。
强化机器学习与无监督学习类似,也使用未标记的数据集,并允许算法对数据进行评估。然而,强化学习的不同之处在于,这类机器学习会朝着一个既定的目标努力,而不是探索数据以发现可能存在的任何模式。有了目标,该算法会在试错过程中不断进步。算法会在每一步操作中收到正面、负面或中性的反馈,并使用这些反馈来完善整体决策过程。强化学习算法可以在宏观层面上朝着项目目标努力,即使这意味着要处理短期的负面结果。通过这种方式,强化学习在判断决策中的风险时也会考虑到项目目标的具体情境,因此比其他方法更擅长处理复杂和动态的情况。比如说,教电脑下国际象棋就是一个很好的例子,总体目标是赢得比赛,但在比赛过程中可能需要牺牲棋子。
哪种机器学习更符合您的需求?究竟应该选择监督学习还是在其他类型中三选一,通常取决于数据的结构和数量、训练的时间和金钱预算以及要将最终模型用于什么场景。比如,根据裙子推荐搭配的上衣,出现失误的问题不大,但要是漏诊了肿瘤,后果就严重多了。
顾名思义,机器学习通过创建基于计算机的统计模型来工作。这些模型会评估训练数据,针对特定目的进行优化,而不是采用传统做法,由程序员开发一个静态算法来试图解决问题。当数据集输入到机器学习模型中时,数据科学家可以通过一系列的超参数(既定变量)和学习参数(经过算法调整的变量)来评估模型输出结果的准确性并对模型进行调整。
由于该算法在评估训练数据时会进行调整,接触和计算新数据的过程会训练算法,使其在执行任务时表现得更好。该算法是项目的计算部分,而“模型”则是一个经过良好训练的算法,用于真实世界中的使用场景。
机器学习项目的范围、资源和目标将决定哪条路径更合适,但大多数都会涉及一系列步骤。
1. 收集和编译数据
训练机器学习模型需要大量高质量的数据。有时,这些数据很难寻获,如果需要标记数据,又可能会耗费大量资源。确定潜在的数据来源后,需要对其进行评估,以确定整体质量以及判断是否满足项目现有数据集成/存储库资源要求。这些数据来源构成了机器学习项目的训练基础。
2. 选择合适的算法以生成所需模型
数据科学家可以根据项目计划,选择采用监督学习、无监督学习或半监督学习。例如,采用已标注数据集的简单项目可以使用决策树算法,而聚类算法会将数据样本根据相似性进行分组,在无监督的情况下工作,需要更多的算力来确定实现目标的理想路径。
3. 优化并准备数据以进行分析
输入的数据很可能还不能直接使用。在准备过程中,数据集需要经过清理,以确保所有数据在训练期间都可以被轻松摄取。准备工作包括一系列的转换任务,例如确定日期和时间格式,根据需要合并或拆分列,以及设置其他格式参数,例如实数数据中可接受的有效数字。其他关键任务还包括清理重复记录(也称为数据去重),以及识别甚至是删除异常值。
4. 通过训练让模型学习
一旦选定了最终模型,训练过程就可以开始了。在这个过程中,已标记或未标记的精选数据集都会输入到算法中。在初始运行时,结果可能不太理想,但数据科学家会根据需要进行调整以优化性能并提高准确性。然后,我们需要再次为算法提供数据,通常数据量会更大,以便能够精准调优模型。算法所处理的数据越多,最终模型所提供的结果质量就越好。
5. 评估模型性能和准确性
在模型训练到足够准确后,就需要用模型从未接触过的数据对其进行测试,以检验其性能。一般上,用于测试的数据是训练数据集的一个子集,在初始训练后预留出来用于测试。
6. 微调并增强模型参数
此时模型很可能已接近部署阶段,使用测试数据集运行应该能够产生非常准确的结果。作为对原始训练中使用的通用数据的补充,可以使用特定数据(通常是企业运营数据)进行额外训练,对模型进行优化。
7. 部署模型
优化结果后,模型现在可以在正常生产环境中处理之前未见过的数据了。模型上线后,项目团队会搜集有关模型在现实场景中的表现的数据。这可以通过跟踪关键性能指标来实现,例如准确性、模型预测的整体正确性和召回率(即正确预测为正例的数量占所有实际正例的比例)。同时,我们还要考虑模型的预测结果对于实际业务结果的影响,了解这是否创造了价值,比如是否增加了上衣的销量?是否实现了更好的诊断?
对模型的性能进行定期审计和审查,有助于确定部署后可能出现的问题或偏差,这对于确保模型有效运行并达到预期目标至关重要。
算法是机器学习项目的计算部分。经过训练后,算法会生成模型,有一定统计概率能够回答问题或实现目标。这个目标可能是在图像中找到某些特征,例如“识别所有的猫”,也可能是发现数据中的异常情况;这些异常可能表明存在欺诈、垃圾邮件或机器维护问题。此外,有的算法可能会尝试作出预测,例如根据当前购物车中的商品,为买家推荐他们可能会喜欢的服装。
以下是一些常见的机器学习算法:
除神经网络外的其他算法
机器学习使用各种算法。除了上面讨论的热门算法,我们还想介绍这五种不太常见但仍然有用的算法。
梯度提升 | 专注于序列中先前的错误,依次构建模型。适用于欺诈和垃圾邮件检测。 |
K 近邻算法 (KNN) | 一种简单而有效的模型,根据训练数据中近邻的标签对数据点进行分类。 |
主元分析 (PCA) | 通过识别重要特征,降低数据维度。对可视化和数据压缩很有用,例如异常检测。 |
Q-learning 算法 | 使用通过试错学习的智能体,使其采取正确行动就会获得奖励,采取错误行动就会获得惩罚。 |
支持向量机 (SVM) | 创建超平面,有效地分隔属于不同类的数据点,例如图像分类。 |
机器学习可以帮助企业从数据中提取其他方法可能无法发现的洞察。将机器学习集成到流程中,可以获得的常见优势包括:
机器学习项目的有效性取决于其构建所使用的系统和资源。这凸显了投资于适当规划和准备的必要性。
以下是机器学习项目面临的一些常见挑战:
机器学习可以为几乎所有行业的企业及其每个部门带来显著优势。只要有数据可供处理,机器学习就能提供新的方式来提高效率和开展新型互动。各行各业常见的机器学习使用场景包括:
Machine Learning in Oracle Database 提供了一系列功能和特性,可加速机器学习过程。通过将数据保留在数据库内,数据科学家可以简化工作流程并提高安全性,同时利用 30 多种内置的高性能算法;对 R、SQL 和 Python 等流行语言的支持;自动化机器学习功能;以及无代码界面。
对于拥有大型数据集的企业,您可以使用 HeatWave MySQL 的数据库内机器学习,无需将数据迁移到单独的机器学习系统,有助于提高安全性、降低成本并节省时间。HeatWave AutoML 可推动机器学习生命周期自动化,包括算法选择、智能数据采样以供训练、特征选择和调优,为您节省大量时间和精力。
机器学习的优势是能够快速准确地分析和解释大量数据。经过训练后,机器学习模型可以在几秒钟或几分钟内识别出模式、趋势和洞察,而这些是人类可能需要数周才能发现的结果,甚至可能永远都无法发现。如此一来,机器学习可以帮助人类做出更明智的决策,并提高解决问题和做出数据驱动预测的能力。此外,机器学习模型也可以实现常规流程自动化,从而节省时间和资源。机器学习正逐渐发挥潜力,彻底改变职场并推动创新。
机器学习是释放数据价值的关键,也是 AI 计划成功的第一步。
AI 和机器学习有什么区别?
AI 指的是广义上的计算学科,专注于构建和完善像人类一样思考的系统。机器学习是这个领域的一个子集,主要专注于学习过程的计算方面。这两个术语通常可以互换使用,也面临着相似的挑战,但尽管有这种联系,两者仍然是相互独立的存在。
机器学习有哪四种主要类型?
机器学习的四种类型如下:
机器学习很难学吗?
与任何技术工艺一样,全面学习机器学习技术是一个反复的过程,需要投入时间和精力。学习机器学习技术的一个很好的起点是先打好编程语言基础(如 Python 或 R 语言),同时也要对统计学有一定的认识。在评估机器学习输出结果时,其中的许多要素都会涉及到回归、分类、拟合和参数等统计学概念。
机器学习有哪些示例?
机器学习的其中一个常见示例是推荐引擎。在电商领域中,“您可能也喜欢…”的产品推荐功能就是一种推荐引擎。而在视频流媒体平台中,推荐引擎会为您推荐接下来可以继续观看的内容。在这些情况下,该算法会获取用户的历史记录,并预测用户可能感兴趣的内容。用户提供的数据点越多,算法的预测结果就越精准。
注:为免疑义,本网页所用以下术语专指以下含义: