Datenbankinternes Machine Learning mit HeatWave AutoML

Michael Chen | Content Strategist | 15. Oktober 2024

Datenbankinternes maschinelles Lernen bezieht sich auf die Integration von Algorithmen und Techniken des maschinellen Lernens in ein Datenbankmanagementsystem. Alle Prozesse – einschließlich der Datensatzauswahl, der Trainingsalgorithmen und der Auswertung von Modellen – bleiben in der Datenbank. Mit datenbankinternem maschinellem Lernen können Unternehmen komplexe analytische Aufgaben direkt in ihren Datenbanken ausführen, sodass keine Daten zwischen Systemen verschoben werden müssen. Dadurch werden die Latenz-, Datenintegritäts- und Sicherheitsbedenken im Zusammenhang mit Datenimport-/Exportprozessen beseitigt.

Betrachten Sie ein Unternehmen, das plötzlich eine Menge Kundenabwanderung erlebt. Machine Learning oder ML-Algorithmen können vorhersagen, welche Kunden wahrscheinlich an einen Mitbewerber herankommen und personalisierte Marketingkampagnen vorschlagen und andere Empfehlungen zur Wiedereingliederung dieser Käufer abgeben. Vielleicht haben Sie einen überschüssigen Bestand an häufig gekauften Artikeln. Das Angebot einer Sonderaktion kann den Bestand bewegen und die Kunden glücklich machen. Wenn maschinelles Lernen direkt in der Datenbank verfügbar ist, können diese Vorschläge viel schneller und auf den aktuellsten Daten generiert werden. Das Unternehmen kann schnell schwenken. Und weil keine Daten in eine externe ML-Engine verschoben werden müssen, werden Sorgen über die Offenlegung von Kundeninformationen beseitigt.

Was ist In-Database Machine Learning?

Datenbankinternes maschinelles Lernen bringt Algorithmen für maschinelles Lernen direkt in die Datenbank, sodass Daten nicht zwischen verschiedenen Systemen hin und her verschoben werden müssen. Traditionell erforderte maschinelles Lernen, dass Daten aus der Datenbank extrahiert und in einer separaten ML-Analyseplattform oder einem separaten Tool verarbeitet werden mussten. Dies kann zeit- und ressourcenintensiv sein, insbesondere im Umgang mit großen Datensätzen.

Mit datenbankinternem maschinellem Lernen bleiben Daten erhalten, während Algorithmen für maschinelles Lernen nativ in der Datenbankumgebung ausgeführt werden. Ein wesentlicher Vorteil der Einbettung von ML-Algorithmen in die Datenbank ist eine schnellere und effizientere Analyse.

Einfach ausgedrückt verlangsamt das Verschieben von Daten alles.

Das datenbankinterne maschinelle Lernen ist besonders hilfreich für die großen Datensätze, die zum Beispiel zum Trainieren von KI-Modellen erforderlich sind. Bei datenbankinternem maschinellem Lernen verwendet die Datenbankumgebung Tools zum Codieren, Erstellen von Modellen und Testen, die für die Plattform nativ sind. Dadurch können alle Tabellen in der Datenbank mit nur wenigen Klicks für datenintensive Projekte verwendet werden.

Das datenbankinterne maschinelle Lernen bietet auch Infrastrukturkonsistenz, unabhängig davon, ob es sich um Schulungen oder Bereitstellungen handelt. Das bedeutet, dass IT-Teams von der Erstellung neuer produktionsfähiger Infrastrukturen befreit sind – ganz zu schweigen von der damit verbundenen Wartungs- und Qualitätssicherungsarbeit –, um die nächsten Phasen der Modellnutzung zu unterstützen.

Wichtige Erkenntnisse

  • Mit datenbankinternem maschinellem Lernen können Unternehmen Modelle für maschinelles Lernen in der Datenbankumgebung programmieren, erstellen, testen und bereitstellen.
  • Durch den Verbleib in der Datenbank wird der Prozess des maschinellen Lernens wesentlich effizienter.
  • Modelle, die mit datenbankinternem maschinellem Lernen erstellt wurden, sind oft weniger komplex als Modelle, die mit eigenständigen Tools erstellt wurden, da sie sich auf die in der Umgebung verfügbaren Funktionen verlassen.

In-Database Machine Learning erklärt

Datenbankinternes maschinelles Lernen ist eine nahtlose Erfahrung, da Mitarbeiter mit ihren vertrauten Datenbanksystemen und -tools arbeiten. Ebenso können Analysten ihre vorhandenen Datenbanken und vertrauten Abfragesprachen verwenden, um erweiterte Analysen durchzuführen, ohne dass zusätzliche Software- oder Hardwareinvestitionen erforderlich sind. Durch die direkte Analyse von Daten in der Datenbank können Unternehmen wertvolle Einblicke in die neuesten Daten gewinnen und zeitnahere, datengesteuerte Entscheidungen treffen.

Ohne datenbankinternes maschinelles Lernen müssen Unternehmen, die ML-Analysen auf ihre Daten anwenden möchten, ETL-Prozesse (Extrahieren/Transformieren/Laden) oder ELT-Prozesse (Extrahieren/Laden/Transformieren) durchführen und Daten in externe Systeme verlagern. Unter diesem traditionellen Modell können Data Scientists manuelle Import-/Exportvorgänge durchführen, oder Systeme können über APIs integriert werden. In beiden Fällen sind mehrere zusätzliche Schritte erforderlich, um Datasets für Funktionen des maschinellen Lernens vorzubereiten. Diese zusätzlichen Schritte öffnen die Tür zu potenziellen Problemen, einschließlich:

  • Doppelte Datenfehler
  • Datenbeschädigungsfehler
  • Sicherheitslücken
  • Übermäßige Ressourcen- und Compute-Nutzung und zugehörige Kosten
  • Probleme mit der Integrationskompatibilität
  • Kompatibilitätsprobleme bei Formaten

Das datenbankinterne maschinelle Lernen überspringt die Export-/Importschritte, sodass ML-Aufgaben in derselben Umgebung wie die Daten selbst gespeichert werden, ohne dass Neuerstellung oder Neuformatierung erforderlich ist, um die Kompatibilität sicherzustellen. Wenn Sie in der Datenbank bleiben, müssen auch keine Systeme mehr gewartet werden, die das Go-Between verarbeiten können.

Bedeutung von In-Database Machine Learning

Im großen Maßstab gibt es eine Reihe von Hürden, wenn Sie verschiedene Datenquellen für Aufgaben des maschinellen Lernens verwenden, insbesondere das KI-Modelltraining. Dazu gehören:

  • Modelltrainings-Constraints Da viele Datasets zu groß sind, um ständig eine ETL/ELT-Verarbeitung durchlaufen zu können, verwenden Datenteams in der Regel nur Teilmengen ihrer Daten für das Modelltraining. Dies führt zu Einschränkungen, da Modelle auf Daten trainiert werden können, die nicht das gesamte Spektrum von Szenarien darstellen, auf die sie bei der Bereitstellung in der "realen Welt" stoßen werden.
  • Komplexität der Datenquellen. Datenquellen können vielfältig sein – Echtzeit-Sensoren für das Internet of Things (IoT) in einer Fabrik, Kundendatenbanken mit langer Historie und zahlreichen Feldern, riesige Sicherheitslogdateien. Das Fehlen eines einzigen, einheitlichen und vereinfachten Formats verursacht Probleme für Anwendungen, einschließlich Business-Intelligence-Systemen, geschweige denn für komplexere Funktionen wie maschinelles Lernen.

Datenbankinternes maschinelles Lernen ist für Datenteams derzeit aufgrund des schnellen und kontinuierlichen Wachstums von Datenvolumen und -vielfalt wichtig. Einfach ausgedrückt, werden datenintensive Aufgaben schwieriger und nicht einfacher. Daher ist es wichtiger denn je, datenbankinternes maschinelles Lernen in Workflows zu integrieren.

Wie funktioniert In-Database Machine Learning?

Das grundlegende, datenbankinterne maschinelle Lernen funktioniert ähnlich wie das standardmäßige maschinelle Lernen. Der Hauptunterschied besteht darin, dass alle Schritte, die zum Verschieben von Daten zwischen Systemen erforderlich sind – von Extrakten bis hin zu Transformation/Reinigung – einfach entfernt werden. Dies hat jedoch einige Einschränkungen und Anforderungen aufgrund der Art der Arbeit in einer Datenbankumgebung.

Grundsätzlich funktioniert In-Database Machine Learning wie folgt.

1. Daten werden in eine Analysedatenbank geladen und vorverarbeitet

Alles beginnt mit dem anfänglichen Laden in die Datenbank, aber für die Zwecke des datenbankinternen maschinellen Lernens bleibt ein Vorbehalt: Die Datenbank muss die Fähigkeit unterstützen - insbesondere den Code in der Nähe der Daten zu halten, um die volle Effizienzverbesserung zu ermöglichen, die mit datenbankinternem maschinellem Lernen möglich ist.

2. Algorithmen für maschinelles Lernen sind optimiert

Unabhängig davon, ob sich Algorithmen für maschinelles Lernen in der Datenbank oder auf einer Plattform eines Drittanbieters befinden, müssen sie dennoch den erforderlichen Optimierungsprozess durchlaufen. Das bedeutet, das Modell zu trainieren, die Ergebnisse zu bewerten und nach Bedarf zu optimieren. Der größte Unterschied zum datenbankinternen maschinellen Lernen besteht darin, dass diese Schritte innerhalb der Datenbank und nicht in einem System ausgeführt werden, das sich von dem Ort unterscheidet, an dem die Daten gespeichert sind. Dadurch entfällt die Notwendigkeit, Daten zwischen mehreren verschiedenen Systemen und Datenspeichern zu verschieben, um Modelloptimierungsaufgaben auszuführen.

3. Data Scientists verwenden spezielle APIs, um maschinelles Lernen zu trainieren

Beim herkömmlichen maschinellen Lernen müssen Daten aus Datenbanken in ein Repository wie einen Data Lake verschoben werden, um das Modell zu trainieren, die Ergebnisse auszuwerten und Verfeinerungen durchzuführen, wie z. B. das Optimieren einzelner Algorithmen und Parameter. Diese Schritte verwenden Compute-Ressourcen und reduzieren die Infrastruktur. Datenbanknative APIs können diese Aufgaben bewältigen, selbst wenn das Modell von der Entwicklung in die Testumgebung übergeht.

4. Vorausschauende Erkenntnisse können ohne Unterbrechung direkt in Betriebssystemen ausgeführt werden

Mithilfe von datenbankinternem maschinellem Lernen können Revisionen des ML-Modells an andere Datenbanken propagiert werden, sei es in Entwicklungs-, Test- oder Produktionsumgebungen, indem einfach eine Tabelle versioniert wird. Verfeinerungen lassen sich sofort integrieren, sodass Funktionen ohne Unterbrechung von zusätzlichen Schritten oder heruntergefahrenen Compute-Ressourcen ausgeführt werden können.

5. Ergebnisse werden in Echtzeit mit verbesserter Genauigkeit zurückgegeben

Wenn Erkenntnisse mithilfe von ML-Modellen direkt in einer Datenbank generiert werden, ergeben sich nahezu Echtzeiteinblicke ohne zusätzliche Schritte oder Bedenken hinsichtlich der ETL/ELT-Latenz und Datenintegrität.

Vorteile des datenbankinternen maschinellen Lernens im Vergleich zu anderen Methoden

Das datenbankinterne maschinelle Lernen verkürzt natürlich Prozesse und reduziert den Hardwarebedarf für Unternehmen, wodurch eine Reihe von Vorteilen entsteht. Während dieser Ansatz mit seinen eigenen Einschränkungen einhergeht, sind die gemeinsamen Vorteile wie folgt:

Schnellere Analyseverarbeitung

Das Verschieben von Daten zwischen Systemen ist bestenfalls umständlich. Im schlimmsten Fall kann es zu Fehlern, Latenz- und Sicherheitsrisiken führen und gleichzeitig den Betrieb verlangsamen. Durch die Beibehaltung von Analyseaufgaben in der Datenbank werden die zusätzlichen Hürden, die mit ELT/ETL verbunden sind – während des Exports, der Datentransformation und des Ladens – negiert, um sicherzustellen, dass der gesamte Analyseprozess so schnell wie möglich verläuft.

Reduzierte Betriebskosten

Wenn ein Unternehmen darauf verzichtet, große Datenmengen zu verschieben, spart es Speicherplatz und Expertenaufwand und profitiert gleichzeitig von geringerer Latenz. Zeit ist Geld. Darüber hinaus reduziert eine verbesserte Effizienz die Zeit, die für die Behebung von Hardware- und Softwareproblemen aufgewendet wird, um die Kosten zu senken.

Erhöhte Skalierbarkeit

Die Skalierbarkeit hängt oft von Ressourcen ab: Je mehr Geld, Arbeitskräfte oder CPUs für einen Prozess benötigt werden, desto schwieriger ist es, nach Bedarf zu skalieren. Durch das Entfernen von Datenverschiebungsprozessen entfällt die zusätzliche Rechenleistung, die erforderlich ist, um Schritte wie den Export oder die Formatkonvertierung auszuführen. Das Speichern von Daten in der Datenbank reduziert die Notwendigkeit, Kompatibilitätsprobleme zu beheben und die Recheneffizienz zu verbessern. Dies bietet weitaus mehr Flexibilität und eine einfachere Skalierung, um die Nachfrage zu decken.

Verbesserte Leistung und Genauigkeit

ELT/ETL-Prozesse sind eine primäre Quelle doppelter Daten in einem Netzwerk. Die Duplizierung kann aus vielen Quellen stammen, z. B. einem Hardwareproblem, das den Export unterbricht und beschädigte Daten verlässt, oder Problemen mit Datentransformationstools, die zu versehentlichem Bearbeiten oder Löschen führen. Jeder Schritt eines ELT/ETL-Prozesses eröffnet Risiken, die der Qualität und Genauigkeit eines Datensatzes schaden und gleichzeitig die Prozesseffizienz verlangsamen können.

Automatisierte Bereitstellung und Wartung

Durch maschinelles Lernen in der Datenbank werden Daten an einem Ort aufbewahrt. Dadurch entfällt die Notwendigkeit, Daten zu verschieben, wodurch Export/Import und Eingabe/Ausgabe reduziert werden. Infolgedessen können Prozesse innerhalb der nativen Umgebung stattfinden, ohne sich auf andere Systeme zu verlassen. Dadurch werden Automatisierungstools und -funktionen für verschiedene Aufgaben wie Deployment-, Auditing- und Wartungsprüfungen freigegeben. Benutzer können von diesen Funktionen profitieren, ohne sich um Kompatibilitäts- oder Integrationsprobleme kümmern zu müssen, die auftreten können.

Datenbankinterne Tools und Services für maschinelles Lernen

Die datenbankinternen Tools für maschinelles Lernen bieten ein Spektrum an Services und Funktionen. In vielen Fällen ähneln diese Tools dem, was ein Datenbankanbieter als eigenständige Funktionen bereitstellen kann, entweder als Teilmenge integrierter Funktionen oder als eingebettete Verbindung zur Machine Learning-Plattform des Anbieters. Beispiel: Oracle Database bietet Funktionen für maschinelles Lernen in der Umgebung, sodass keine Daten von einem System in ein anderes verschoben werden müssen. In diesem Fall bietet Oracle Database Exploration, Vorbereitung und Modellierung mit Oracle Machine Learning-Tools wie SQL, R, Python, REST, automatisiertem maschinellem Lernen (AutoML) und No-Code-Schnittstellen sowie einer Vielzahl verfügbarer Algorithmen.

Screenshot des Oracle Machine Learning-Dashboards

In-Database - Nachteile des maschinellen Lernens

Obwohl es überzeugende Vorteile bietet, hängt das datenbankinterne maschinelle Lernen stark von den Features und Funktionen der Datenbankumgebung ab. Dies kann zu Problemen bei der zukünftigen Migration führen oder wenn das ML-Modell etwas erfordert, das über die nativen Funktionen der Umgebung hinausgeht.

Die häufigsten Nachteile und Einschränkungen des datenbankinternen maschinellen Lernens sind:

Schwierigkeiten beim Bereitstellen von Modellen

Wenn alles mit den Anforderungen und Zielen des maschinellen Lernens eines Projekts übereinstimmt, ist der Übergang vom Testen zur Bereitstellung eigentlich ein einfacher Schritt. Diese Modelle basieren jedoch auf den spezifischen Funktionen der datenbankinternen Tools einer Organisation. Was passiert, wenn das Projekt zu etwas Komplexem wird oder Migration erfordert? Die Arbeit mit In-Database-Tools kann die aktuelle Machine-Learning-Arbeit schneller und effizienter machen. Doch die Zukunft ist ungewiss – daher sollte geprüft werden, ob langfristige Ziele mit den heutigen Möglichkeiten übereinstimmen.

Begrenzte Modellkomplexität

Datenbankinternes maschinelles Lernen funktioniert nur bei unterstützten Datenbankanwendungen und kann einen begrenzten Satz von APIs bieten. Dies ändert sich, wenn die Fähigkeiten datenbankinterner Systeme für maschinelles Lernen zunehmen, aber in der Regel bieten eigenständige Tools mehr Leistung und Funktionen sowie eine Fülle von Spezialisten, die Unternehmen dabei helfen, diese Funktionen zu nutzen.

Mangelnde Datentransparenz

Die größte Stärke des datenbankinternen maschinellen Lernens führt auch zu einem seiner größten Nachteile: Durch das Speichern von Daten in der Datenbankumgebung werden ETL-/ELT-Schritte übersprungen – das bedeutet jedoch auch, dass Möglichkeiten für Auditing und Datenbereinigung umgangen werden.

Einschränkungen berechnen

In vielen Fällen teilen Datenbanken nicht die gleichen Compute-Ressourcen wie Tools für maschinelles Lernen, insbesondere für groß angelegte oder extrem komplexe Modelle, die High Performance Computing erfordern. Aus diesem Grund hat der Umfang datenbankinterner Modelle für maschinelles Lernen oft eine Obergrenze. Jedes organisatorische Setup ist anders; ähnlich sind die Anforderungen jedes Projekts unterschiedlich, und dies ist ein Kompromiss, der in den ersten Planungsphasen zu berücksichtigen ist.

Erste Schritte mit In-Database Machine Learning mit HeatWave AutoML

HeatWave bietet automatisierte, integrierte und sichere generative KI und ML in einem Cloud-Service für Transaktionen und Analysen im Lakehaus-Maßstab. HeatWave AutoML enthält alles, was Benutzer zum Erstellen, Trainieren und Erklären von MLs in HeatWave benötigen, und das ohne zusätzliche Kosten. Mit datenbankinternem maschinellem ML in HeatWave müssen Kunden keine Daten in einen separaten ML-Service verschieben. Sie können ML-Training, Inferenz und Erklärungen einfach und sicher auf Daten anwenden, die sowohl in MySQL als auch im Object Store gespeichert sind. HeatWave ist auf Oracle Cloud Infrastructure, Amazon Web Services und Microsoft Azure verfügbar.

Um loszulegen, müssen Unternehmen sicherstellen, dass ihre Datenbank In-Database-ML unterstützt – eine entscheidende Voraussetzung für alle, die das volle Potenzial von Machine Learning ausschöpfen möchten. Durch die Integration von ML-Algorithmen in Daten und nicht umgekehrt erhalten Entscheidungsträger schnellere und effizientere Analysen.

Daten und KI: Ein Leitfaden zum Erfolg für CIOs

KI-Modelle sind in vielen Größen und Komplexitätsstufen erhältlich, von LLMs bis hin zu einfacheren ML-Modellen. Was haben sie alle gemeinsam? Hunger nach Daten. Hier 4 Komponenten einer KI-fähigen Dateninfrastruktur.

Häufig gestellte Fragen zu In-Database Machine Learning

Wie kann datenbankinternes ML effektiv genutzt werden?

Datenbankinternes maschinelles Lernen funktioniert nur, wenn Unternehmen eine Datenbank verwenden, die datenbankinterne Funktionen unterstützt. Die Grundlage dieser Datenbank für Compute-Ressourcen muss zusammen mit der Größe und dem Umfang der Datenbank und des Modells für maschinelles Lernen berücksichtigt werden.

Welche Vorteile bietet datenbankinternes ML?

Durch datenbankinternes maschinelles Lernen müssen keine Daten mehr extrahiert und zwischen Systemen verschoben werden. Dies schafft eine natürliche Reihe von Vorteilen in Bezug auf die Effizienz, und in einigen Fällen kann es die Prozesszeiten von Wochen auf Tage verkürzen, da es nicht erforderlich ist, sich auf externe Tools für ETL/ELT zu verlassen. Aus einer großen Perspektive reduziert dies auch die Betriebskosten und erhöht die Skalierbarkeit und betriebliche Effizienz durch weniger Ressourcennutzung.

Welche Probleme sind bei der Verwendung von datenbankinternem ML zu berücksichtigen?

Bevor Teams sich entscheiden, datenbankinternes maschinelles Lernen für ein Projekt zu verwenden, sollten sie die folgenden Faktoren abwägen:

  • Wie schnell muss sich das Projekt bewegen?
  • Wie komplex ist das Modell?
  • Braucht ein Spezialist Zugriff auf das Modell oder die Daten? Wenn ja, welche Tools bevorzugen sie?
  • Welche Art von Compute-Ressourcen sind für die Datenbank im Vergleich zu eigenständigen Tools für maschinelles Lernen verfügbar?

Diese Fragen können die Vor- und Nachteile des datenbankinternen maschinellen Lernens klären und sollten für jedes Projekt berücksichtigt werden.

Was sind zukünftige Trends bei datenbankinternem ML?

Anbieter verbessern und erweitern ihre datenbankinternen Funktionen für maschinelles Lernen weiter, und das bedeutet, dass eine Reihe von Trends am Horizont sind. Da immer mehr Tools und Plattformen datenbankinternes maschinelles Lernen unterstützen, können Data Scientists komplexere Modelle erstellen und bereitstellen. Dies sorgt auch für mehr Transparenz, da das Modell auf einer einheitlichen Plattform vorhanden ist, anstatt sich auf diejenigen zu beschränken, die Machine-Learning-Tools verwenden und steuern. Höhere Funktionen bedeuten auch die Benutzerfreundlichkeit mit größeren Datensätzen und somit ein schnelleres Training, Testen und Deployment.