Michael Chen | Content Strategist | 29. Oktober 2024
Halbüberwachtes Lernen ist eine Form des maschinellen Lernens, bei der sowohl beschriftete als auch nicht beschriftete Trainingsdaten verwendet werden. Wie der Name bereits andeutet, vereint diese Methode Elemente des überwachten und unüberwachten Lernens. Halbüberwachtes Lernen folgt einem zweistufigen Prozess: Zunächst wird der Algorithmus – wie beim überwachten Lernen – mit einem beschrifteten Datensatz trainiert. Anschließend erfolgt das Training mit einem nicht beschrifteten Datensatz.
Diese Methode eignet sich besonders, wenn umfangreiche Trainingsdaten vorhanden sind, die jedoch größtenteils oder vollständig nicht beschriftet sind. Wenn ausschließlich nicht beschriftete Daten vorliegen, kann halbüberwachtes Lernen Projekte dennoch starten, indem zunächst ein kleiner Teil der Daten manuell beschriftet und zum ersten Training verwendet wird. Danach kann das System auf durchgehend beschriftete Daten umstellen. Dabei ist es entscheidend, dass die manuell beschrifteten Daten sorgfältig erstellt werden, da sie die Grundlage für das gesamte Projekt bilden.
Die Entscheidung für halbüberwachtes Lernen hängt oft von den verfügbaren Datensätzen ab. Im Zeitalter von Big Data sind nicht beschriftete Daten wesentlich häufiger und kostengünstiger verfügbar als beschriftete.
Dennoch kann es vorkommen, dass Projekte ausschließlich auf nicht beschrifteten Daten angewiesen sind. In diesem Fall müssen Teams abwägen, ob sie den explorativen Ansatz des unüberwachten Lernens nutzen oder Zeit und Ressourcen investieren, um einen Teil der Daten manuell zu beschriften und so das anfängliche Training zu ermöglichen.
Halbüberwachtes Lernen ist eine Machine-Learning-Technik, die zwischen überwachtem Lernen und unüberwachtem Lernen liegt. Sie nutzt sowohl beschriftete als auch nicht beschriftete Daten, um Algorithmen zu trainieren, und kann bessere Ergebnisse liefern als die ausschließliche Verwendung beschrifteter Daten.
Um zu entscheiden, ob halbüberwachtes Lernen für ein Projekt geeignet ist, sollten Teams sich unter anderem folgende Fragen stellen:
Die Antworten auf diese Fragen bestimmen die Machbarkeit des Ansatzes. Sobald die Entscheidung für halbüberwachtes Lernen gefallen ist, besteht der nächste Schritt darin, zwei Trainingsdatensätze vorzubereiten. Der erste Datensatz ist in der Regel ein kleiner, beschrifteter Datensatz, der das Fundament für das anfängliche Training des Projekts bildet. Der zweite Trainingsdatensatz ist größer – oft deutlich größer – und nicht beschriftet. Wenn das System diesen nicht beschrifteten Datensatz verarbeitet, erstellt es Pseudo-Labels auf Basis dessen, was es aus dem beschrifteten Datensatz gelernt hat. Dieser Prozess wird iterativ wiederholt, um den Algorithmus zu verfeinern und die Leistung zu optimieren.
Die gängigsten Formen des halbüberwachten Lernens sind:
Ein Beispiel: Ein Wettervorhersagemodell kann einen Datensatz mit beschrifteten Messwerten wie Windgeschwindigkeit, Luftdruck und Luftfeuchtigkeit verwenden, während das andere Modell allgemeinere Daten wie geografische Lage, Datum/Uhrzeit und durchschnittliche Niederschlagsmengen nutzt. Beide Modelle erzeugen Pseudo-Labels. Wenn das Modell mit den Messwerten eine höhere Wahrscheinlichkeit erzielt als das allgemeine Modell, wird dessen Pseudo-Label auf das allgemeine Modell übertragen – und umgekehrt.
Beide Modelle trainieren weiter, um Bereiche mit niedriger Wahrscheinlichkeit zu verbessern, bis ein umfassendes, endgültiges Modell entsteht.
| Vorteile | Nachteile |
|---|---|
| Kostengünstiger. Durch die Nutzung nicht beschrifteter Daten verringert halbüberwachtes Lernen den Bedarf an umfangreicher manueller Datenbeschriftung – das spart Zeit und Geld. | Empfindlich gegenüber der Qualität der beschrifteten Daten. Die Genauigkeit und Relevanz der beschrifteten Daten hat einen großen Einfluss auf die Modellleistung. Daher müssen ausreichende Ressourcen für eine qualitativ hochwertige Beschriftung eingeplant werden. |
| Verbesserte Modellleistung. In vielen Fällen erreichen halbüberwachte Lernmodelle eine höhere Genauigkeit als Modelle, die ausschließlich mit beschrifteten Daten trainiert wurden – insbesondere, wenn nur wenige beschriftete Daten verfügbar sind. | Weniger geeignet für komplexe, heterogene Datensätze. Wenn die zugrunde liegende Struktur zu komplex ist, kann es dem Modell schwerfallen, sinnvolle Zusammenhänge zwischen beschrifteten und nicht beschrifteten Daten zu erkennen. |
| Effektiv für unstrukturierte Daten. Halbüberwachtes Lernen eignet sich besonders für Aufgaben wie die Kategorisierung von Texten, Videos oder Audiodaten, bei denen große Mengen nicht beschrifteter Daten verfügbar sind. | Begrenzte Transparenz. Nachzuvollziehen, wie ein halbüberwachtes Lernmodell zu seinen Vorhersagen gelangt, und die Genauigkeit zu überprüfen, ist oft schwieriger als beim überwachten Lernen. |
Halbüberwachtes maschinelles Lernen verbindet die Struktur des überwachten Lernens mit den Vorteilen des unüberwachten Lernens – wie z. B. bei der Anomalieerkennung oder beim Aufdecken verborgener Muster und Strukturen in nicht beschrifteten Daten. Es ist zwar nicht für jede Situation geeignet, doch seine Flexibilität macht es zu einer praktikablen Option für eine Vielzahl von Projektanforderungen und -zielen.
Unternehmen, die Schwierigkeiten haben, eine KI-Strategie zu entwickeln, können durch die Einrichtung eines Centers of Excellence den Weg zu nachhaltigem Erfolg ebnen. Erfahren Sie, warum – und wie Sie Ihr eigenes CoE jetzt aufbauen können.
In welchen Situationen wird halbüberwachtes Lernen typischerweise eingesetzt?
Halbüberwachtes Lernen eignet sich besonders, wenn Projekte nur über wenige oder überwiegend nicht beschriftete Daten verfügen. In solchen Fällen kann ein Teil der Daten manuell beschriftet werden, um den Trainingsdatensatz für den ersten Schritt zu erstellen. Anschließend darf das Modell den nicht beschrifteten Datensatz eigenständig erkunden.
Was ist der Unterschied zwischen halbüberwachtem und unüberwachtem Lernen?
Beim unüberwachten Lernen analysiert das Modell nicht beschriftete Datensätze selbstständig, um Muster und Zusammenhänge zwischen Eingaben und Ausgaben zu erkennen. Halbüberwachtes Lernen nutzt diesen Ansatz, ergänzt ihn jedoch um einen vorbereitenden Schritt: Das Modell wird zunächst mit einem kleinen beschrifteten Datensatz trainiert, um eine grundlegende Ausrichtung für das Projekt zu schaffen.
Was sind die Vor- und Nachteile des halbüberwachten Lernens?
Zu den Vorteilen des halbüberwachten Lernens gehören:
Zu den Nachteilen gehören: