Was ist halbüberwachtes Lernen?

Michael Chen | Content Strategist | 29. Oktober 2024

Semi-supervised learning ist eine Form des maschinellen Lernens, die sowohl beschriftete als auch nicht beschriftete Trainingsdatensätze umfasst. Wie ihr Name vermuten lässt, enthält diese Methode Elemente sowohl des überwachten Lernens als auch des unbeaufsichtigten Lernens. Semi-supervised Learning verwendet einen zweistufigen Prozess. Zuerst wird der Algorithmus eines Projekts zunächst mit einem beschrifteten Datensatz trainiert, wie beim überwachten Lernen. Danach geht der Algorithmus weiter, indem er mit einem nicht beschrifteten Datensatz trainiert.

Semi-supervised Learning ist ideal, wenn Projekte viele Trainingsdaten haben, aber die meisten oder alle davon sind nicht beschriftet. Bei Projekten, bei denen nur unmarkierte Daten zur Verfügung stehen, kann Semi-Supervised Learning Projekte durch ein erstes Training mit manuell beschrifteten Daten in Betrieb nehmen, bevor auf rein unmarkierte Trainingsdaten umgestellt wird. Bei Projekten, die diesen Ansatz verwenden, müssen sich die Teams um die manuelle Kennzeichnung von Daten kümmern, da sie zur Grundlage für den Rest des Projekts werden.

Die Entscheidung, Semi-Supervised Learning zu nutzen, hängt oft von den verfügbaren Datensätzen ab. Im Big-Data-Zeitalter sind nicht beschriftete Daten weitaus verfügbarer und zugänglicher als beschriftete Daten, und je nach Quelle werden sie weniger kosten.

Dennoch muss ein Projekt möglicherweise nur mit nicht beschrifteten Daten voranschreiten. In diesem Fall müssen die Teams entscheiden, ob es sinnvoll ist, die explorative Natur des unbeaufsichtigten Lernens zu nutzen, anstatt die Zeit und das Geld zu investieren, um einen Teil des Datensatzes als Mittel für das anfängliche Algorithmustraining zu bezeichnen.

Was ist halbüberwachtes Lernen?

Semi-Supervised Learning ist eine Machine Learning-Technik, die zwischen Supervised Learning und Unsupervised Learning liegt. Es verwendet sowohl beschriftete als auch nicht beschriftete Daten, um Algorithmen zu trainieren, und kann bessere Ergebnisse liefern als die Verwendung beschrifteter Daten allein.

Um zu entscheiden, ob Semi-Supervised Learning für ein Projekt geeignet ist, sollten sich Teams Fragen stellen, wie:

  • Welche Datensätze stehen uns für dieses Projekt zur Verfügung?
  • Sind diese Datensätze gekennzeichnet? Ein Beispiel für Labels für ein Finanzdatensatz kann Transaktionsdaten mit Labels sein, die angeben, ob eine Transaktion betrügerisch oder legitim ist.
  • Wenn alle Datasets nicht beschriftet sind, verfügt das Team über die Ressourcen, um mindestens einige Daten zu beschriften?
  • Sind die Projektziele eher durch überwachtes oder unüberwachtes Lernen erreichbar? Zu den Faktoren, die hier abgewogen werden müssen, gehören eine Mischung aus praktischen und technischen Faktoren, einschließlich Rechenressourcen, Budget, Fristen und gewünschten Ergebnissen.
  • Reicht unser beschrifteter Datensatz aus, um dem Modell die Muster und Merkmale von beispielsweise betrügerischen und legitimen Transaktionen beizubringen?

Die Antworten auf diese Fragen bestimmen die Machbarkeit. Sobald die Entscheidung getroffen wird, mit halbüberwachtem Lernen zu gehen, ist der nächste Schritt, zwei Trainingsdatensätze vorzubereiten. Der erste ist in der Regel ein kleiner beschrifteter Datensatz, um die grundlegende Ausbildung des Projekts zu verankern. Der zweite Trainingsdatensatz ist größer – oft viel größer – und nicht beschriftet. Wenn das System das nicht beschriftete Dataset verarbeitet, generiert es Pseudolabels mit dem, was es aus der beschrifteten Gruppe gelernt hat. Dieser Prozess iteriert dann, um den Algorithmus zu verfeinern und die Performance zu optimieren.

Die häufigsten Arten von halbüberwachtem Lernen sind:

  • Selbsttraining: Bei Selbsttraining verwendet der Prozess das beschriftete Dataset zum Trainieren des Algorithmus. Anschließend generiert das anschließende Training Pseudolabels mit hohem Vertrauen (mehr als 99% Wahrscheinlichkeit) für das nicht beschriftete Dataset, sodass alle Datensätze Labels aufweisen. Dann trainiert das System den erweiterten Datensatz mit den ursprünglich beschrifteten Trainingsdaten, die mit dem nicht beschrifteten Datensatz verkettet sind, unter Verwendung von Pseudolabels, sodass ein Training auf größeren Datenmengen im Vergleich zum ursprünglichen beschrifteten Datensatz möglich ist.
  • Co-Training: Beim Co-Training nimmt der Prozess einen kleinen beschrifteten Datensatz an und nähert sich ihm mit zwei unterschiedlichen Ansichten (Feature Groups), die sich auf ergänzende und unabhängige Informationen konzentrieren. Jede Gruppe trainiert einen separaten Algorithmus und macht dann Vorhersagen für ein nicht beschriftetes Dataset, um Pseudolabels für jedes resultierende Modell zu klassifizieren. Jedes von einem Classifier (einem Algorithmus, der ein Label voraussagt) generierte Pseudolabel enthält einen Wahrscheinlichkeitsscore, und das Pseudolabel mit dem höheren Wahrscheinlichkeitsscore wird dann dem anderen Trainingsdatensatz hinzugefügt.

Beispiel: Ein Wettervorhersagemodell kann mit einem Datensatz beginnen, der Labels für aufgezeichnete Metriken wie Windgeschwindigkeit, Luftdruck und Luftfeuchtigkeit verwendet, während das andere Modell verallgemeinerte Daten wie geografische Lage, Datum/Uhrzeit und aufgezeichneter durchschnittlicher Niederschlag verwendet. Beide Modelle generieren Pseudolabels, und wenn das Metrikmodell einen höheren Wahrscheinlichkeitsscore als das allgemeine Modell aufweist, wird dieses Pseudolabel auf das allgemeine Modell angewendet und umgekehrt.

Jede Methode setzt das Training fort, um Bereiche mit Ergebnissen mit geringer Wahrscheinlichkeit zu verfeinern, bis ein umfassendes Endmodell erstellt wird.

Vorteile und Nachteile des Semi-Supervised Learning

Vorteile Nachteile
Kostengünstiger. Durch die Nutzung nicht beschrifteter Daten reduziert Semi-Supervised Learning den Bedarf an umfangreicher manueller Datenbeschriftung und spart Zeit und Geld. Sensibel für beschriftete Datenqualität. Die Genauigkeit und Relevanz der gelabelten Daten beeinflussen die Modellleistung erheblich – daher sollten Sorgfalt und Budget für eine qualitativ hochwertige Datenkennzeichnung eingeplant werden.
Verbesserte Modellperformance. In vielen Fällen können halbüberwachte Lernmodelle eine bessere Genauigkeit erreichen als Modelle, die nur auf beschrifteten Daten trainiert werden, insbesondere wenn beschriftete Daten knapp sind. Ungeeignet für komplexe, vielfältige Datensätze. Das Modell könnte Schwierigkeiten haben, sinnvolle Beziehungen zwischen beschrifteten und nicht beschrifteten Daten zu finden, wenn die zugrunde liegende Struktur zu komplex ist.
Wirksam bei unstrukturierten Daten. Semi-Supervised Learning eignet sich besonders gut für Aufgaben wie Text-, Video- oder Audio-Kategorisierung, bei denen oft unmarkierte Daten vorhanden sind. Begrenzte Transparenz. Zu verstehen, wie ein halbüberwachtes Lernmodell zu seinen Vorhersagen kommt und auf Genauigkeit zu überprüfen, kann im Vergleich zu überwachtem Lernen schwieriger sein.

Semi-Supervised Machine Learning kombiniert die Struktur des Starts eines Projekts mit überwachtem Lernen mit den Vorteilen des unbeaufsichtigten Lernens, wie der fortgeschrittenen Erkennung von Anomalien und der Fähigkeit, verborgene Muster und Strukturen in nicht beschrifteten Daten aufzudecken. Obwohl sie nicht für jede Situation geeignet ist, ist sie aufgrund ihrer inhärenten Flexibilität eine praktikable Option für ein breites Spektrum von Projektanforderungen und -zielen.

Unternehmen, die Schwierigkeiten haben, eine KI-Strategie zu entwickeln, können feststellen, dass die Einrichtung eines Kompetenzzentrums sie auf den Weg zu nachhaltigem Erfolg bringt. Erfahren Sie, warum, und erhalten Sie eine Roadmap, um Ihre CoE jetzt zu erstellen.

Häufig gestellte Fragen zu Semi-Supervised Learning

In welchen Situationen wird typischerweise Semi-Supervised Learning verwendet?

Semi-Supervised Learning funktioniert am besten, wenn Projekte nur Zugang zu oder meist nicht beschrifteten Daten haben. Unter diesen Umständen können Teams eine Teilmenge von Daten manuell beschriften, um das Trainings-Dataset für den ersten Schritt zu erstellen. Anschließend kann das Modell das nicht beschriftete Dataset untersuchen.

Was ist der Unterschied zwischen halbüberwachtem und unbeaufsichtigtem Lernen?

Unbeaufsichtigtes Lernen ermöglicht es Modellen, nicht beschriftete Datensätze zu untersuchen, mit dem Ziel, Muster und Beziehungen zwischen Ein- und Ausgaben selbst zu entdecken. Semi-Supervised Learning verwendet diese Methode, aber mit einem Vorläuferschritt des Trainings des Algorithmus auf einem kleinen beschrifteten Datensatz, um eine grundlegende Richtung für das Projekt zu bauen.

Was sind einige Vor- und Nachteile des halbüberwachten Lernens?

Zu den Vorteilen des halbüberwachten Lernens gehören:

  • Es verwendet sowohl beschriftete als auch nicht beschriftete Datensätze.
  • Es gibt bessere Funktionen für unstrukturierte Daten, wie z. B. große Mengen an Text, Video oder Audio.
  • Es verwendet leicht zugängliche und kostengünstigere, nicht beschriftete Datensätze.
  • Verbesserte Modellperformance, insbesondere bei begrenzten Daten.

Nachteile des Semi-Supervised Learning:

  • Es kann Zeit und Geld erfordern, um einen Trainingsdatensatz manuell zu kennzeichnen.
  • Es gibt möglicherweise eine geringere Genauigkeit und Transparenz im Vergleich zu überwachtem Lernen mit qualitätsgekennzeichneten Datensätzen.
  • Es ist ungeeignet für einige Arten von Projekten, wie solche mit strengen Richtlinien oder die hohe Genauigkeitsstandards für die Sicherheit erfordern.
  • Nicht geeignet für komplexe, vielfältige Datensätze.