Was versteht man unter halbüberwachtem Lernen?

Michael Chen | Content Strategist | 29. Oktober 2024

Halbüberwachtes Lernen ist eine Form des maschinellen Lernens, bei der sowohl beschriftete als auch nicht beschriftete Trainingsdaten verwendet werden. Wie der Name bereits andeutet, vereint diese Methode Elemente des überwachten und unüberwachten Lernens. Halbüberwachtes Lernen folgt einem zweistufigen Prozess: Zunächst wird der Algorithmus – wie beim überwachten Lernen – mit einem beschrifteten Datensatz trainiert. Anschließend erfolgt das Training mit einem nicht beschrifteten Datensatz.

Diese Methode eignet sich besonders, wenn umfangreiche Trainingsdaten vorhanden sind, die jedoch größtenteils oder vollständig nicht beschriftet sind. Wenn ausschließlich nicht beschriftete Daten vorliegen, kann halbüberwachtes Lernen Projekte dennoch starten, indem zunächst ein kleiner Teil der Daten manuell beschriftet und zum ersten Training verwendet wird. Danach kann das System auf durchgehend beschriftete Daten umstellen. Dabei ist es entscheidend, dass die manuell beschrifteten Daten sorgfältig erstellt werden, da sie die Grundlage für das gesamte Projekt bilden.

Die Entscheidung für halbüberwachtes Lernen hängt oft von den verfügbaren Datensätzen ab. Im Zeitalter von Big Data sind nicht beschriftete Daten wesentlich häufiger und kostengünstiger verfügbar als beschriftete.

Dennoch kann es vorkommen, dass Projekte ausschließlich auf nicht beschrifteten Daten angewiesen sind. In diesem Fall müssen Teams abwägen, ob sie den explorativen Ansatz des unüberwachten Lernens nutzen oder Zeit und Ressourcen investieren, um einen Teil der Daten manuell zu beschriften und so das anfängliche Training zu ermöglichen.

Was versteht man unter halbüberwachtem Lernen?

Halbüberwachtes Lernen ist eine Machine-Learning-Technik, die zwischen überwachtem Lernen und unüberwachtem Lernen liegt. Sie nutzt sowohl beschriftete als auch nicht beschriftete Daten, um Algorithmen zu trainieren, und kann bessere Ergebnisse liefern als die ausschließliche Verwendung beschrifteter Daten.

Um zu entscheiden, ob halbüberwachtes Lernen für ein Projekt geeignet ist, sollten Teams sich unter anderem folgende Fragen stellen:

  • Welche Datensätze stehen uns für dieses Projekt zur Verfügung?
  • Sind einige dieser Datensätze beschriftet? Ein Beispiel für Beschriftungen in einem Finanzdatensatz wären Transaktionsdaten mit Labels, die angeben, ob eine Transaktion betrügerisch oder legitim ist.
  • Wenn alle Datensätze nicht beschriftet sind – verfügt das Team über die Ressourcen, um zumindest einen Teil der Daten zu beschriften?
  • Sind die Projektziele eher durch überwachtes oder unüberwachtes Lernen zu erreichen? Hierbei sollten sowohl praktische als auch technische Faktoren berücksichtigt werden, darunter Compute-Ressourcen, Budget, Zeitrahmen und gewünschte Ergebnisse.
  • Ist unser beschrifteter Datensatz ausreichend, um dem Modell die Muster und Merkmale – beispielsweise von betrügerischen und legitimen Transaktionen – zu vermitteln?

Die Antworten auf diese Fragen bestimmen die Machbarkeit des Ansatzes. Sobald die Entscheidung für halbüberwachtes Lernen gefallen ist, besteht der nächste Schritt darin, zwei Trainingsdatensätze vorzubereiten. Der erste Datensatz ist in der Regel ein kleiner, beschrifteter Datensatz, der das Fundament für das anfängliche Training des Projekts bildet. Der zweite Trainingsdatensatz ist größer – oft deutlich größer – und nicht beschriftet. Wenn das System diesen nicht beschrifteten Datensatz verarbeitet, erstellt es Pseudo-Labels auf Basis dessen, was es aus dem beschrifteten Datensatz gelernt hat. Dieser Prozess wird iterativ wiederholt, um den Algorithmus zu verfeinern und die Leistung zu optimieren.

Die gängigsten Formen des halbüberwachten Lernens sind:

  • Self-Training (Selbsttraining): Beim Selbsttraining wird der beschriftete Datensatz verwendet, um den Algorithmus zu trainieren. In einem zweiten Schritt generiert das System für den nicht beschrifteten Datensatz Pseudo-Labels mit hoher Wahrscheinlichkeit (über 99 %), sodass letztlich alle Datensätze Labels erhalten. Anschließend trainiert das System auf dem erweiterten Datensatz, der sowohl die ursprünglich beschrifteten Daten als auch die nicht beschrifteten mit Pseudo-Labels enthält. Auf diese Weise kann das Modell mit einer wesentlich größeren Datenmenge trainiert werden als mit dem ursprünglichen beschrifteten Datensatz allein.
  • Co-Training: Beim Co-Training wird ein kleiner beschrifteter Datensatz aus zwei verschiedenen Perspektiven (Merkmalsgruppen) betrachtet, die sich gegenseitig ergänzen und unabhängige Informationen liefern. Jede Gruppe trainiert ein separates Modell und trifft anschließend Vorhersagen für einen nicht beschrifteten Datensatz, um Pseudo-Labels für jedes Modell zu erstellen. Jedes Pseudo-Label wird mit einer Wahrscheinlichkeitsbewertung versehen, und das Label mit der höheren Wahrscheinlichkeit wird in den Trainingsdatensatz des jeweils anderen Modells aufgenommen.

Ein Beispiel: Ein Wettervorhersagemodell kann einen Datensatz mit beschrifteten Messwerten wie Windgeschwindigkeit, Luftdruck und Luftfeuchtigkeit verwenden, während das andere Modell allgemeinere Daten wie geografische Lage, Datum/Uhrzeit und durchschnittliche Niederschlagsmengen nutzt. Beide Modelle erzeugen Pseudo-Labels. Wenn das Modell mit den Messwerten eine höhere Wahrscheinlichkeit erzielt als das allgemeine Modell, wird dessen Pseudo-Label auf das allgemeine Modell übertragen – und umgekehrt.

Beide Modelle trainieren weiter, um Bereiche mit niedriger Wahrscheinlichkeit zu verbessern, bis ein umfassendes, endgültiges Modell entsteht.

Vorteile und Nachteile des halbüberwachten Lernens

Vorteile Nachteile
Kostengünstiger. Durch die Nutzung nicht beschrifteter Daten verringert halbüberwachtes Lernen den Bedarf an umfangreicher manueller Datenbeschriftung – das spart Zeit und Geld. Empfindlich gegenüber der Qualität der beschrifteten Daten. Die Genauigkeit und Relevanz der beschrifteten Daten hat einen großen Einfluss auf die Modellleistung. Daher müssen ausreichende Ressourcen für eine qualitativ hochwertige Beschriftung eingeplant werden.
Verbesserte Modellleistung. In vielen Fällen erreichen halbüberwachte Lernmodelle eine höhere Genauigkeit als Modelle, die ausschließlich mit beschrifteten Daten trainiert wurden – insbesondere, wenn nur wenige beschriftete Daten verfügbar sind. Weniger geeignet für komplexe, heterogene Datensätze. Wenn die zugrunde liegende Struktur zu komplex ist, kann es dem Modell schwerfallen, sinnvolle Zusammenhänge zwischen beschrifteten und nicht beschrifteten Daten zu erkennen.
Effektiv für unstrukturierte Daten. Halbüberwachtes Lernen eignet sich besonders für Aufgaben wie die Kategorisierung von Texten, Videos oder Audiodaten, bei denen große Mengen nicht beschrifteter Daten verfügbar sind. Begrenzte Transparenz. Nachzuvollziehen, wie ein halbüberwachtes Lernmodell zu seinen Vorhersagen gelangt, und die Genauigkeit zu überprüfen, ist oft schwieriger als beim überwachten Lernen.

Halbüberwachtes maschinelles Lernen verbindet die Struktur des überwachten Lernens mit den Vorteilen des unüberwachten Lernens – wie z. B. bei der Anomalieerkennung oder beim Aufdecken verborgener Muster und Strukturen in nicht beschrifteten Daten. Es ist zwar nicht für jede Situation geeignet, doch seine Flexibilität macht es zu einer praktikablen Option für eine Vielzahl von Projektanforderungen und -zielen.

Unternehmen, die Schwierigkeiten haben, eine KI-Strategie zu entwickeln, können durch die Einrichtung eines Centers of Excellence den Weg zu nachhaltigem Erfolg ebnen. Erfahren Sie, warum – und wie Sie Ihr eigenes CoE jetzt aufbauen können.

Häufig gestellte Fragen zum halbüberwachten Learning

In welchen Situationen wird halbüberwachtes Lernen typischerweise eingesetzt?

Halbüberwachtes Lernen eignet sich besonders, wenn Projekte nur über wenige oder überwiegend nicht beschriftete Daten verfügen. In solchen Fällen kann ein Teil der Daten manuell beschriftet werden, um den Trainingsdatensatz für den ersten Schritt zu erstellen. Anschließend darf das Modell den nicht beschrifteten Datensatz eigenständig erkunden.

Was ist der Unterschied zwischen halbüberwachtem und unüberwachtem Lernen?

Beim unüberwachten Lernen analysiert das Modell nicht beschriftete Datensätze selbstständig, um Muster und Zusammenhänge zwischen Eingaben und Ausgaben zu erkennen. Halbüberwachtes Lernen nutzt diesen Ansatz, ergänzt ihn jedoch um einen vorbereitenden Schritt: Das Modell wird zunächst mit einem kleinen beschrifteten Datensatz trainiert, um eine grundlegende Ausrichtung für das Projekt zu schaffen.

Was sind die Vor- und Nachteile des halbüberwachten Lernens?

Zu den Vorteilen des halbüberwachten Lernens gehören:

  • Es nutzt sowohl beschriftete als auch nicht beschriftete Datensätze.
  • Es ist besonders effektiv bei unstrukturierten Daten, wie beispielsweise bei großen Mengen an Text-, Video- oder Audiodaten.
  • Es ermöglicht die Nutzung leicht zugänglicher und kostengünstiger nicht beschrifteter Datensätze.
  • Es kann die Modellleistung verbessern, insbesondere bei begrenztem Datenvolumen.

Zu den Nachteilen gehören:

  • Es kann Zeit und Geld kosten, um den Trainingsdatensatz manuell zu beschriften.
  • Es kann geringere Genauigkeit und Transparenz aufweisen als überwachtes Lernen mit hochwertigen beschrifteten Datensätzen.
  • Es ist für bestimmte Projekte ungeeignet, beispielsweise solche mit strengen Vorgaben oder hohen Sicherheitsanforderungen.
  • Es ist weniger geeignet für komplexe, heterogene Datensätze.