Was ist überwachtes Lernen?

Michael Chen | Content Strategist | 17. Juli 2024

Überwachtes Lernen ist eine Form des maschinellen Lernens, bei der gekennzeichnete Datensätze zum Trainieren von Algorithmen verwendet werden. Beim überwachten Lernen ermöglichen gekennzeichnete Datensätze dem Algorithmus, Beziehungen zwischen Ein- und Ausgaben zu bestimmen. Während der Algorithmus seine Trainingsdaten durchläuft, identifiziert er Muster, die schließlich Vorhersagemodelle verfeinern oder Entscheidungen während automatisierter Arbeitsabläufe beeinflussen können. Im Wesentlichen dienen die gekennzeichneten Datensätze als Beispiele, die der Algorithmus erlernen kann, wie ein Schüler in einem strukturierten Klassenzimmer.

Überwachtes Lernen ist die ideale Wahl für eine Reihe von Aufgaben und Situationen. Wenn ein Projekt ein klar definiertes Ziel hat, können Teams durch überwachtes Lernen schneller zum Ziel kommen als durch unüberwachtes Lernen, bei dem der Algorithmus einen nicht beschrifteten Datensatz ohne Parameter oder Ziele aufnimmt und selbstständig Muster und Beziehungen in den Daten ermittelt. Beim überwachten Lernen dienen gekennzeichnete Datensätze als Wegweiser für das Algorithmus-Training.

Darüber hinaus bietet das Training eines überwachten Lernalgorithmus im Vergleich zu anderen Formen des maschinellen Lernens den Vorteil, dass bekannte Größen wie Merkmale und Ergebnisse berücksichtigt werden. Dadurch kann der Überprüfungsprozess beschleunigt werden, da die Trainer anhand von Standardkennzahlen ein konkretes Verständnis für den aktuellen Status eines Projekts erhalten.

Durch überwachtes Lernen können Organisationen mehrere Vorteile erzielen. Durch die Integration einer effizienten Verarbeitung von Big Data können Organisationen Muster und Erkenntnisse viel schneller identifizieren und so schnellere Entscheidungen treffen. Darüber hinaus können überwachte Lernalgorithmen die Automatisierung von Aufgaben vorantreiben und so Arbeitsabläufe potenziell verbessern und beschleunigen. Zum Beispiel könnte ein Algorithmus für maschinelles Lernen in einem Fertigungsbetrieb anhand historischer Datensätze typische Wartungszyklen für verschiedene Geräte ermitteln. Dann könnte das System dieses Wissen auf Echtzeitdaten von Sensoren anwenden, die die Nutzung und Leistung eines Werkzeugs verfolgen. Der Algorithmus könnte dann Anzeichen von Verschleiß erkennen oder vor dem Ende der Lebensdauer kritischer Teile warnen, sodass Ersatzteile bestellt werden können, bevor eine Fehlfunktion des Werkzeugs zu einem Stillstand der Produktionslinie führt.

Was ist überwachtes Lernen?

Das überwachte maschinelle Lernen beginnt mit der Kuratierung gekennzeichneter Trainingsdatensätze, wobei die Ein- und Ausgaben klar und konsistent identifiziert werden. Der Algorithmus nimmt diese Daten auf, um Beziehungen zu erlernen; dieses Lernen führt zu einem mathematischen Modell für Vorhersagen. Der Trainingsprozess ist iterativ und wird wiederholt, um den Algorithmus zu verfeinern, bis das Modell die gewünschte Genauigkeit erreicht hat. Zu diesem Zeitpunkt können verschiedene Datensätze verwendet werden, um zu bewerten und zu bestätigen, dass das Modell für die Arbeit mit Live-Daten bereit ist.

Algorithmen für überwachtes Lernen fallen im Allgemeinen in eine von zwei Kategorien.

Klassifizierung: Klassifizierungsalgorithmen wandeln Daten in kategorisierte Ausgaben um. Ein Finanzalgorithmus zur Betrugserkennung untersucht beispielsweise die Kaufhistorie eines Kreditkartenkunden und verwendet diese Daten, um zu entscheiden, ob eine neue Transaktion wahrscheinlich legitim ist oder zur weiteren Betrugsprüfung markiert werden sollte.

Regression: Regressionsalgorithmen verwenden gekennzeichnete Trainingsdatensätze, um eine am besten passende Beziehung zwischen Eingaben und Ausgaben zu ermitteln, sodass mathematische Vorhersagen für neue Eingaben getroffen werden können. Ein Wetteralgorithmus kann beispielsweise Variablen wie Jahreszeit, aktuelle Trends, historische Muster und aktuelle Umweltmesswerte berücksichtigen, um eine Prognose zu erstellen.

Obwohl das überwachte Lernen ein bewährter und effektiver Ansatz für maschinelles Lernen ist, bringt es einige Herausforderungen mit sich. Teams sollten die folgenden Punkte prüfen, bevor sie entscheiden, ob sie mit dem überwachten Lernen fortfahren.

Modellauswahl: Die Komplexität und der Ressourcenbedarf von Algorithmen für überwachtes Lernen variieren. Ein Entscheidungsbaum – im Wesentlichen ein Flussdiagramm mit Entscheidungspunkten und möglichen Ergebnissen – kann beispielsweise mit einem geringen Fußabdruck ausgeführt werden, bietet jedoch keine Möglichkeit für strenge Genauigkeit in einem komplexen Bereich. Andererseits wird ein tiefes neuronales Netz weitaus mehr Ressourcen für das Training und die Produktion benötigen, kann aber letztendlich genaue Vorhersagen treffen und vieles mehr. Die richtige Balance zu finden, ist der Schlüssel zu einem erfolgreichen Projekt.

Qualität der Trainingsdaten: Jedes maschinelle Lernprojekt erfordert saubere Daten aus hochwertigen Quellen. Für überwachte Trainingsdaten bedeutet das insbesondere, dass die Daten mit einer genauen und konsistenten Kennzeichnung versehen sind, die mit anderen für das Training verwendeten Quellen kompatibel ist. Wenn die Trainingsdatensätze nicht in kompatiblen Formaten vorliegen, müssen vor dem Training Datenintegrations- und -transformationsverfahren angewendet werden, was Zeit und Kosten verursacht.

Verständnis der Projektbeschränkungen: Faktoren wie Budget, Ressourcen der Schulungsumgebung und Fristen können praktische Beschränkungen schaffen, die die Realität eines maschinellen Lernprojekts bestimmen. Da diese Einschränkungen die Auswahl des Algorithmus beeinflussen können, sollten die Teams vor Beginn der Arbeit die Parameter festlegen.

Unterm Strich kann überwachtes Lernen der richtige Ansatz für maschinelles Lernen bei Projekten sein, bei denen gekennzeichnete Datensätze verfügbar sind. Darüber hinaus sollten Teams verstehen, dass überwachtes Lernen am besten funktioniert, wenn das Ziel darin besteht, genaue Vorhersagen oder Entscheidungen auf der Grundlage identifizierter Muster zu treffen – denken Sie an die Erkennung von Betrug oder Spam, bei der der Algorithmus anhand von Beispielen für korrekte und falsche Ergebnisse trainiert werden kann. Schließlich wird das Verständnis verschiedener Arten von überwachten Lernmodellen, wie Entscheidungsbäume und lineare Regression, darüber Aufschluss geben, ob dies der richtige Ansatz für ein bestimmtes Projekt ist.

Welcher KI-Anwendungsfall eignet sich am besten für überwachtes Lernen? Erfahren Sie mehr in diesem E-Book.

Häufig gestellte Fragen zu überwachtem Lernen

Wie sieht ein Beispiel für einen überwachten Lernalgorithmus aus?

Ein Beispiel für einen überwachten Lernalgorithmus ist die Erstellung eines Modells, das die Wahrscheinlichkeit einer Erkrankung auf der Grundlage der elektronischen Patientenakte vorhersagt. Das Modell wird anhand eines gekennzeichneten Satzes von Patientendaten unter Verwendung von Faktoren wie Symptomen, Alter, Testergebnissen, Vorerkrankungen und anderen Faktoren trainiert. Dadurch kann das System die Daten eines Patienten aufnehmen und feststellen, ob es eine nicht diagnostizierte Erkrankung gibt, die näher untersucht werden sollte.

Wie sieht ein Beispiel für unüberwachtes Lernen aus?

Im Gegensatz zum überwachten Lernen werden Algorithmen für das unüberwachte Lernen anhand von Datensätzen ohne Beschriftungen trainiert. Das Ziel des unüberwachten Lernens besteht darin, dem Algorithmus zu ermöglichen, Daten zu untersuchen und Muster selbstständig zu erkennen. Dieses resultierende Modell kann dann auf eingehende Daten angewendet werden. Ein Beispiel für unüberwachtes Lernen ist ein Kundensegmentierungsmodell, das Muster in großen Datensätzen der Kundennutzung und Kaufhistorie nutzen kann, um Kunden für Marketingzwecke in Gruppen zusammenzufassen.

Ist CNN überwacht oder unüberwacht?

Ein Convolutional Neural Network (CNN) ist eine überwachte Lerntechnik, die auf gekennzeichneten Datensätzen für Zwecke wie Bild- oder Videoanalyse trainiert wird, zusätzlich zu Anwendungen mit ähnlichen Modellen wie der Verarbeitung natürlicher Sprache. CNNs verwenden mehrere Layer, um Aufgaben zu trennen, z. B. das Identifizieren von Merkmalen/Besonderheiten oder das Anwenden von Klassifizierungen, und optimieren die Rechenressourcen.