什么是半监督式学习?

Michael Chen | 内容策略师 | 2024 年 10 月 29 日

半监督式学习是一种机器学习形式,既包括有标签的训练数据集,也包括无标签的训练数据集。正如它的名字所推断的那样,这种方法结合了监督学习和无监督学习的元素。半监督学习使用两个步骤的过程。首先,项目的算法最初是使用有标签的数据集进行训练的,就像在监督学习中一样。之后,该算法通过使用无标签数据集进行训练向前移动。

半监督学习是理想的,当项目有大量的训练数据,但大部分或全部是未标记的。对于只有无标签数据的项目,半监督学习可以通过在切换到完全无标签的训练数据之前对手动标记的数据进行初始训练来启动和运行项目。使用这种方法的项目,团队在手动标记数据时必须小心,因为它成为构建项目其余部分的基础。

使用半监督学习的决定通常取决于可用的数据集。在大数据时代,无标签数据比有标签数据更容易获得和访问,根据来源的不同,获取成本会更低。

尽管如此,项目可能仍需要依靠无标签数据才能继续推进。当这种情况发生时,在初始算法训练阶段,团队必须决定是要利用无监督学习的探索特性,还是要花费时间和金钱标注数据集。

什么是半监督式学习?

半监督式学习是一种机器学习技术,介于监督式学习无监督式学习之间。它使用有标签和无标签数据来训练算法,并且可能比单独使用有标签数据提供更好的结果。

要确定半监督学习是否适合项目,团队应提出以下问题:

  • 对于此项目,我们可以使用哪些数据集?
  • 这些数据集中有没有标记?财务数据集的标签示例可能是带有标签的事务处理数据,其中指明事务处理是欺诈还是合法。
  • 如果数据集都未加标签,团队是否有资源来至少标注一部分数据?
  • 项目的目标是否可以通过监督或无监督学习来实现?这里要考虑的因素包括实际和技术因素,包括计算资源、预算、截止日期和预期结果。
  • 我们有标签的数据集是否足以教模型的模式和特征,例如,欺诈和合法的交易?

这些问题的答案将决定可行性。一旦决定进行半监督学习,下一步就是准备两个训练数据集。第一个通常是一个小标签数据集,以锚定项目的基础培训。第二个训练数据集更大(通常要大得多)并且没有标记。系统处理无标签数据集时,会使用从有标签集中学到的内容生成伪标签。然后,此过程会迭代以优化算法并优化性能。

常见的半监督学习类型是:

  • 自训练:通过自训练,流程使用有标签数据集来训练算法,然后后续训练为无标签数据集生成高置信度(超过 99% 概率)伪标签,以便所有记录都具有标签。然后,系统对扩展数据集进行训练,其中包含使用伪标签与无标签数据集连接的原始有标签训练数据,与原始有标签数据集相比,可以对更多数据进行训练。
  • 联合训练:通过联合训练,该流程需要少量有标签的数据集,并使用两个不同的视图(功能组)来处理它,重点关注互补和独立的信息。每个组训练一个单独的算法,然后继续对无标签数据集进行预测,以对每个生成的模型的伪标签进行分类。由分类器(一种预测标签的算法)生成的每个伪标签都带有概率评分,然后将具有较高概率评分的伪标签添加到其他训练数据集中。

例如,天气预报模型可以从使用记录指标(如风速、大气压力和湿度)上的标签的数据集开始,而另一个模型使用更广义的数据(如地理位置、日期/时间和记录的平均降水量)。这两种模型都生成伪标签,当度量模型的概率得分高于常规模型时,该伪标签将应用于常规模型,反之亦然。

每种方法都会继续训练,以优化低概率结果的区域,直到产生全面的最终模型。

半监督学习的优点和缺点

优点 缺点
成本更低。通过利用无标签数据,半监督学习可以减少对大量手动数据标签的需求,从而节省时间和金钱。 对有标签数据质量敏感。标记数据的准确性和相关性会显著影响模型的性能,因此需要分配谨慎和资金以确保质量标记。
提高模型性能。在许多情况下,与仅在有标签数据上训练的模型相比,半监督学习模型可以实现更高的准确性,特别是在有标签数据稀缺的情况下。 不适合复杂的多样化数据集。如果底层结构过于复杂,则模型可能难以在有标签数据与无标签数据之间找到有意义的关系。
对非结构化数据有效。半监督学习特别适合文本、视频或音频分类等任务,其中无标签数据通常丰富。 有限透明度。与监督式学习相比,了解半监督式学习模型如何实现预测并检查准确性可能更具挑战性。

半监督机器学习结合了使用监督学习启动项目的结构与无监督学习的好处,例如高级异常检测以及发现无标签数据中隐藏模式和结构的能力。虽然不适合每种情况,但其固有的灵活性使其成为广泛项目需求和目标的可行选择。

努力制定人工智能战略的公司可能会发现,建立卓越中心使他们走上了可持续成功的道路。了解原因,并立即获取路线图来构建 CoE。

半监督学习常见问题解答

在哪些情况下通常使用半监督学习?

当项目只能访问或大部分无标签数据时,半监督学习效果更好。在这些情况下,团队可以手动标记数据子集以创建第一步的训练数据集,然后允许模型浏览无标签的数据集。

半监督学习和无监督学习有什么区别?

无监督学习允许模型探索无标签数据集,以发现输入和输出之间的模式和关系。半监督学习使用这种方法,但随着前体步骤的训练,该算法在一个小的有标签数据集上,为项目建立一个基础方向。

什么是半监督学习的优点和缺点?

半监督学习的优点包括:

  • 它同时使用有标签和无标签数据集。
  • 提供了更好的非结构化数据功能,例如大量文本、视频或音频。
  • 它使用更易于访问且成本更低的无标签数据集。
  • 提高了模型性能,尤其是在数据有限的情况下。

半监督学习的缺点包括:

  • 手动标记训练数据集可能需要时间和金钱。
  • 与具有高质量标签数据集的监督学习相比,准确性和透明度可能较低。
  • 它不适合某些类型的项目,例如那些具有严格指导原则或要求高精度安全标准的项目。
  • 不适合复杂、多样化的数据集。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。