Datenbankinternes maschinelles Lernen mit HeatWave AutoML

Michael Chen | Content Strategist | 15. Oktober 2024

In diesem Artikel

Was ist datenbankinternes maschinelles Lernen?
Datenbankinternes maschinelles Lernen – einfach erklärt
Bedeutung von datenbankinternem maschinellen Lernen
Funktionsweise des datenbankinternen maschinellen Lernens
Vorteile des datenbankinternen maschinellen Lernens im Vergleich zu anderen Methoden
Tools und Services für datenbankinternes maschinelles Lernen
Nachteile des datenbankinternen maschinellen Lernens
Erste Schritte mit datenbankinternem Machine Learning mit HeatWave AutoML
Häufig gestellte Fragen zum datenbankinternen maschinellen Lernen

Datenbankinternes maschinelles Lernen bezeichnet die Integration von ML-Algorithmen und -Techniken direkt in ein Datenbankmanagementsystem. Alle Schritte – von der Auswahl der Datensätze über das Training der Algorithmen bis zur Bewertung der Modelle – verbleiben vollständig in der Datenbank. Unternehmen können damit komplexe Analysen direkt in ihren Datenbanken ausführen, ohne Daten zwischen Systemen verschieben zu müssen. So entfallen Latenzzeiten sowie Risiken für Datenintegrität und Sicherheit, die bei Import- und Exportprozessen entstehen.

Stellen Sie sich ein Unternehmen vor, das plötzlich eine hohe Kundenabwanderung verzeichnet. ML-Algorithmen können vorhersagen, welche Kunden wahrscheinlich zur Konkurrenz wechseln, und personalisierte Marketingmaßnahmen sowie weitere Empfehlungen zur Rückgewinnung vorschlagen. Oder Sie haben einen Überschuss an häufig gekauften Artikeln. Eine gezielte Aktion kann Bestände reduzieren und Kunden erfreuen. Steht Machine Learning direkt in der Datenbank zur Verfügung, entstehen solche Empfehlungen deutlich schneller – auf Basis der aktuellsten Daten. Das Unternehmen kann sofort reagieren. Und da keine Daten in eine externe ML-Engine übertragen werden, entfallen auch sämtliche Sicherheitsbedenken hinsichtlich sensibler Kundendaten.

Was ist datenbankinternes maschinelles Lernen?

Datenbankinternes maschinelles Lernen bringt ML-Algorithmen direkt in die Datenbank und macht das Hin- und Herschieben von Daten zwischen verschiedenen Systemen überflüssig. Traditionell mussten Daten aus der Datenbank extrahiert und in einer separaten ML-Analytics-Plattform verarbeitet werden. Dieser Prozess ist zeitaufwendig und ressourcenintensiv – insbesondere bei großen Datenmengen.

Mit datenbankinternem Machine Learning bleiben die Daten dort, wo sie sind, während die ML-Algorithmen nativ in der Datenbank ausgeführt werden. Der wichtigste Vorteil: Analysen werden schneller und effizienter.

Kurz gesagt: Das Verschieben von Daten verlangsamt alles.

Für umfangreiche Datensätze, wie sie beispielsweise für das Training von KI-Modellen benötigt werden, ist datenbankinternes maschinelles Lernen besonders wertvoll. Die Datenbankumgebung stellt dabei eigene Tools für das Codieren, Erstellen und Testen von Modellen bereit. So können alle Tabellen der Datenbank mit wenigen Klicks für datenintensive Projekte genutzt werden.

Zudem sorgt datenbankinternes maschinelles Lernen für eine konsistente Infrastruktur – sowohl beim Training als auch beim Deployment. IT-Teams müssen dadurch keine neuen, produktionsreifen Umgebungen mehr aufbauen, pflegen oder testen, um die nächsten Schritte der Modellerstellung zu unterstützen.

Wichtige Erkenntnisse

Datenbankinternes maschinelles Lernen ermöglicht es Unternehmen, ML-Modelle direkt in der Datenbankumgebung zu entwickeln, zu testen und bereitzustellen.
Da der gesamte Prozess in der Datenbank bleibt, läuft er deutlich effizienter ab.
Modelle, die datenbankintern erstellt werden, sind oft weniger komplex als solche aus separaten Tools, da sie auf den im System verfügbaren Funktionen aufbauen.

Datenbankinternes maschinelles Lernen – einfach erklärt

Datenbankinternes maschinelles Lernen bietet eine nahtlose Erfahrung, da Mitarbeiter mit ihren vertrauten Datenbanksystemen und Tools arbeiten. Auch Analysten können ihre bestehenden Datenbanken und bekannten Abfragesprachen nutzen, um erweiterte Analysen durchzuführen – ohne zusätzliche Investitionen in Software oder Hardware. Durch die Analyse direkt in der Datenbank gewinnen Unternehmen wertvolle Einblicke in aktuelle Daten und treffen schneller fundierte Entscheidungen.

Ohne datenbankinternes maschinelles Lernen müssen Unternehmen ETL- oder ELT-Prozesse durchführen und Daten in externe Systeme verschieben. In diesem traditionellen Modell importieren oder exportieren Data Scientists Daten manuell, oder Systeme werden über APIs verbunden. In beiden Fällen sind mehrere zusätzliche Schritte erforderlich, um Daten für Machine-Learning-Funktionen aufzubereiten – und genau diese Schritte erhöhen das Risiko potenzieller Probleme, darunter:

Doppelte Datenfehler
Fehler durch Datenkorruption
Sicherheitslücken
Übermäßige Ressourcen- und Compute-Nutzung sowie zugehörige Kosten
Probleme mit der Integrationskompatibilität
Kompatibilitätsprobleme bei Formaten

Datenbankinternes maschinelles Lernen überspringt die Export-/Importschritte und führt ML-Aufgaben direkt in derselben Umgebung wie die Daten aus. Dadurch entfallen aufwendige Neubearbeitungen oder Umformatierungen zur Sicherstellung der Kompatibilität. Das Arbeiten innerhalb der Datenbank macht zudem separate Systeme überflüssig, die sonst als Zwischeninstanz dienen und gewartet werden müssten.

Bedeutung von datenbankinternem maschinellen Lernen

In großem Maßstab ergeben sich zahlreiche Herausforderungen, wenn eine vielfältige Menge an Datenquellen für Machine-Learning-Aufgaben genutzt wird – insbesondere für das Training von KI-Modellen. Dazu gehören unter anderem:

Einschränkungen beim Modelltraining. Da viele Datensätze zu groß sind, um laufend ETL-/ELT-Prozesse durchlaufen zu können, arbeiten Datenteams beim Modelltraining meist nur mit Teilmengen ihrer Daten. Das führt zu Einschränkungen, weil Modelle auf Daten trainiert werden, die nicht das gesamte Spektrum der späteren Realweltszenarien abdecken.
Komplexität der Datenquellen. Datenquellen können sehr unterschiedlich sein – von Echtzeit-IoT-Sensoren in einer Fabrik über umfangreiche Kundendatenbanken mit langen Historien und vielen Feldern bis hin zu riesigen Sicherheitsprotokollen. Das Fehlen eines einheitlichen, vereinfachten Formats verursacht Probleme für Anwendungen, darunter Business-Intelligence-Systeme, ganz zu schweigen von komplexeren Funktionen wie Machine Learning.

Datenbankinternes maschinelles Lernen gewinnt für Datenteams zunehmend an Bedeutung, da Datenvolumen und -vielfalt rasant weiterwachsen. Kurz gesagt: Datenintensive Aufgaben werden schwieriger, nicht einfacher. Umso wichtiger ist es, datenbankinternes maschinelles Lernen in bestehende Workflows zu integrieren.

Funktionsweise des datenbankinternen maschinellen Lernens

In seiner grundlegendsten Form funktioniert datenbankinternes maschinelles Lernen ähnlich wie herkömmliches Machine Learning. Der entscheidende Unterschied besteht darin, dass alle Schritte zur Datenverschiebung zwischen Systemen – vom Extrahieren bis zur Transformation und Bereinigung – entfallen. Allerdings bringt die Arbeit innerhalb einer Datenbankumgebung bestimmte Anforderungen und Einschränkungen mit sich.

Grundsätzlich läuft datenbankinternes maschinelles Lernen wie folgt ab:

1. Daten werden in eine Analytics-Datenbank geladen und vorverarbeitet.

Alles beginnt mit dem initialen Laden der Daten in die Datenbank. Für datenbankinternes ML gilt jedoch eine wichtige Voraussetzung: Die Datenbank muss diese Funktionalität unterstützen – insbesondere die Möglichkeit, Code nah an den Daten auszuführen, um die Effizienzgewinne vollständig auszuschöpfen.

2. Machine-Learning-Algorithmen werden optimiert

Unabhängig davon, ob die Algorithmen sich in der Datenbank oder auf einer externen Plattform befinden, müssen sie optimiert werden. Das umfasst das Training des Modells, die Bewertung der Ergebnisse und das anschließende Feintuning. Der wesentliche Unterschied beim datenbankinternen maschinellen Lernen: Diese Schritte finden direkt in der Datenbank statt, nicht in einem separaten System. Dadurch entfällt der Aufwand, Daten zwischen verschiedenen Systemen und Datenspeichern hin- und herzubewegen, um Optimierungsaufgaben durchzuführen.

3. Data Scientists nutzen spezialisierte APIs für das Modelltraining

In klassischen Machine-Learning-Workflows müssen Daten aus Datenbanken in ein anderes Repository, wie z. B. einen Data Lake, verschoben werden, um das Modell zu trainieren, Ergebnisse auszuwerten und Feinabstimmungen an Algorithmen und Parametern vorzunehmen. Diese Prozesse belasten die Compute-Ressourcen und die gesamte Infrastruktur. Datenbanknative APIs können diese Aufgaben direkt übernehmen – selbst dann, wenn das Modell von der Entwicklungs- über die Test- bis in die Produktionsumgebung überführt wird.

4. Vorhersagen lassen sich direkt auf operativen Systemen ohne Unterbrechung ausführen

Mit datenbankinternem maschinellen Lernen können Aktualisierungen des ML-Modells in andere Datenbanken – ob Entwicklung, Test oder Produktion – übernommen werden, indem einfach eine Tabelle versioniert wird. Verfeinerungen greifen sofort, sodass Funktionen ohne zusätzliche Schritte oder eine Überlastung der Compute-Ressourcen ausgeführt werden können.

5. Ergebnisse werden in Echtzeit und mit höherer Genauigkeit bereitgestellt

Wenn Erkenntnisse mithilfe von ML-Modellen direkt in der Datenbank generiert werden, entstehen nahezu Echtzeit-Einblicke – ohne zusätzliche Schritte oder Bedenken hinsichtlich ETL-/ELT-Latenzen und Datenintegrität.

Vorteile des datenbankinternen maschinellen Lernens im Vergleich zu anderen Methoden

Datenbankinternes maschinelles Lernen verkürzt Abläufe und verringert den Hardwarebedarf, was Unternehmen eine Reihe klarer Vorteile bringt. Auch wenn dieser Ansatz eigene Einschränkungen mit sich bringt, zählen die folgenden Vorteile zu den zentralen:

Schnellere Analyseprozesse

Das Verschieben von Daten zwischen Systemen ist immer umständlich. Im schlimmsten Fall führt es zu Fehlern, Latenzen und Sicherheitsrisiken und verlangsamt den Betrieb. Indem Analyseaufgaben in der Datenbank verbleiben, entfallen die zusätzlichen Hürden von ELT/ETL – vom Export über die Datenumwandlung bis zum Laden. Dadurch läuft der gesamte Analyseprozess so schnell und reibungslos wie möglich.

Reduzierte Gesamtbetriebskosten

Wenn große Datenmengen nicht mehr bewegt werden müssen, sinken sowohl Speicher- als auch Personalkosten, und gleichzeitig reduziert sich die Latenz. Schließlich zählt jede Minute. Zudem steigert die höhere Effizienz die Produktivität und verringert den Aufwand für die Fehlerbehebung bei Hard- und Software. Das führt zu weiteren Einsparungen.

Höhere Skalierbarkeit

Skalierbarkeit hängt direkt von verfügbaren Ressourcen ab. Je mehr Budget, Fachkräfte oder CPUs ein Prozess benötigt, desto schwieriger wird ein schnelles Hochskalieren. Der Wegfall von Datenverschiebungen reduziert den zusätzlichen Rechenaufwand für Schritte wie Export oder Formatkonvertierung. Bleiben Daten im Datenbankkern, sinkt der Aufwand für Kompatibilitätsprüfungen und die Rechenleistung wird effizienter genutzt. Das ermöglicht deutlich mehr Flexibilität und erleichtert das Skalieren bei Bedarf.

Verbesserte Leistung und Genauigkeit

ELT/ETL-Abläufe sind eine zentrale Quelle für doppelte Datenstände im Netzwerk. Doppelte oder beschädigte Daten können unter anderem durch Hardwarefehler während des Exports oder durch Probleme bei der Daten-transformation entstehen. Jeder einzelne Schritt eines ELT/ETL-Prozesses birgt Risiken, die Datenqualität und Genauigkeit beeinträchtigen und gleichzeitig Prozesse verlangsamen.

Automatisierte Bereitstellung und Wartung

Machine Learning direkt in der Datenbank hält alle Daten an einem Ort. Das minimiert Export-, Import- und I/O-Vorgänge. Prozesse laufen in ihrer nativen Umgebung ab, ohne Abhängigkeit von zusätzlichen Systemen. Dadurch werden Automatisierungstools für Aufgaben wie Deployment, Audits und Wartungsprüfungen frei. Außerdem profitieren Anwender von diesen Funktionen, ohne sich um Integrations- oder Kompatibilitätsprobleme kümmern zu müssen.

Tools und Services für datenbankinternes maschinelles Lernen

Tools für datenbankinternes maschinelles Lernen bieten ein breites Spektrum an Funktionen und Services. Häufig ähneln diese Tools den eigenständigen Angeboten eines Datenbankanbieters – entweder als integrierter Funktionsumfang oder als eingebundene Verbindung zur entsprechenden ML-Plattform. Oracle Database stellt beispielsweise Machine-Learning-Funktionen direkt in der Datenbank bereit, sodass keine Daten zwischen Systemen verschoben werden müssen. In diesem Fall unterstützt Oracle Database die Exploration, Aufbereitung und Modellierung von Daten mit Oracle Machine Learning-Tools wie SQL, R, Python, REST, AutoML oder No-Code-Oberflächen sowie einer Vielzahl verfügbarer Algorithmen.

Screenshot des Oracle Machine Learning-Dashboards

Nachteile des datenbankinternen maschinellen Lernens

Trotz überzeugender Vorteile ist datenbankinternes maschinelles Lernen stark von den Funktionen und Möglichkeiten der jeweiligen Datenbankumgebung abhängig. Dies kann bei späteren Migrationen oder dann zum Problem werden, wenn ein ML-Modell mehr benötigt, als die nativen Funktionen des Systems leisten können.

Zu den häufigsten Nachteilen und Einschränkungen zählen:

Erschwerte Modellbereitstellung

Wenn alles mit den Anforderungen und Zielen des maschinellen Lernens eines Projekts übereinstimmt, ist der Übergang vom Test zum Deployment eigentlich ein einfacher Schritt. Die Modelle basieren jedoch auf den spezifischen Funktionen der genutzten Datenbanktools. Was passiert, wenn das Projekt komplexer wird oder eine Migration ansteht? Datenbankinterne Tools beschleunigen den aktuellen ML-Workflow, doch die Zukunft kann ungewiss sein. Daher ist es wichtig zu prüfen, ob langfristige Ziele zur bestehenden Systemlandschaft passen.

Begrenzte Modellkomplexität

Datenbankinternes maschinelles Lernen funktioniert nur innerhalb unterstützter Datenbankanwendungen und bietet häufig einen eingeschränkten Satz an APIs. Zwar entwickeln sich diese Systeme weiter, doch grundsätzlich liefern eigenständige ML-Tools mehr Leistungsfähigkeit, mehr Funktionen und Zugang zu spezialisierten Experten, die Unternehmen bei der Ausschöpfung dieser Möglichkeiten unterstützen.

Geringere Datentransparenz

Der größte Vorteil des datenbankinternen maschinellen Lernens birgt zugleich eine zentrale Schwäche: Da Daten vollständig in der Datenbank verbleiben und ETL/ELT-Schritte entfallen, fehlen auch wichtige Gelegenheiten für Audits oder Datenbereinigung.

Recheneinschränkungen

In vielen Fällen verfügen Datenbanken nicht über dieselben Compute-Ressourcen wie spezialisierte Machine-Learning-Tools – insbesondere bei groß angelegten oder sehr komplexen Modellen, die Hochleistungsrechner erfordern. Dadurch ist der Umfang von datenbankinternen ML-Modellen häufig begrenzt. Jede Systemlandschaft ist anders, ebenso wie die Anforderungen einzelner Projekte. Diese Abwägung sollte daher bereits in der Planungsphase berücksichtigt werden.

Erste Schritte mit datenbankinternem Machine Learning mit HeatWave AutoML

HeatWave bietet automatisierte, integrierte und sichere generative KI und Machine Learning in einem einzigen Cloud-Service für Transaktionen und Analysen im Lakehouse-Maßstab. HeatWave AutoML stellt alles bereit, was Anwender für den Aufbau, das Training und die Erläuterung von ML-Modellen benötigen – ohne zusätzliche Kosten. Mit datenbankinternem maschinellen Lernen in HeatWave entfällt die Notwendigkeit, Daten in einen separaten ML-Service zu verschieben. ML-Training, Inferenz und Erklärbarkeit lassen sich einfach und sicher auf Daten anwenden, die sowohl in MySQL als auch im Objektspeicher gespeichert sind. HeatWave ist auf Oracle Cloud Infrastructure, Amazon Web Services und Microsoft Azure verfügbar.

Um zu starten, müssen Unternehmen sicherstellen, dass ihre Datenbank das datenbankinterne maschinelle Lernen unterstützt – ein entscheidender Faktor für Organisationen, die das Potenzial von ML umfassend nutzen möchten. Indem Algorithmen zu den Daten gebracht werden und nicht umgekehrt, erhalten Entscheidungsträger schneller tiefere und effizientere Analysen.

Daten und KI: Ein Leitfaden zum Erfolg für CIOs

KI-Modelle gibt es in vielen Größen und Komplexitätsstufen – von LLMs bis hin zu einfacheren ML-Modellen. Eines haben sie alle gemeinsam: Sie benötigen große Datenmengen. Hier sind vier zentrale Komponenten einer KI-fähigen Dateninfrastruktur.

E-Book lesen

Häufig gestellte Fragen zum datenbankinternen maschinellen Lernen

Wie lässt sich datenbankinternes Machine Learning effektiv einsetzen?

Datenbankinternes maschinelles Lernen funktioniert nur, wenn Unternehmen eine Datenbank nutzen, die diese Funktionen unterstützt. Dabei sollten sowohl die verfügbaren Compute-Ressourcen als auch Größe und Umfang der Datenbank sowie des ML-Modells berücksichtigt werden.

Welche Vorteile bietet datenbankinternes ML?

Datenbankinternes maschinelles Lernen macht das Extrahieren und Verschieben von Daten überflüssig. Dadurch entstehen natürliche Effizienzgewinne – in einigen Fällen lassen sich Prozesszeiten von mehreren Wochen auf wenige Tage verkürzen, weil keine externen Tools für ETL/ELT mehr benötigt werden. Insgesamt sinken die Betriebskosten, während Skalierbarkeit und operative Effizienz durch geringeren Ressourceneinsatz steigen.

Welche Punkte sollten vor dem Einsatz von datenbankinternem ML bedacht werden?

Vor einer Entscheidung sollten Teams die folgenden Fragen klären:

Wie schnell muss das Projekt vorankommen?
Wie komplex ist das Modell?
Benötigt ein Spezialist Zugriff auf Modell oder Daten? Und welche Tools werden bevorzugt?
Welche Compute-Ressourcen stehen der Datenbank im Vergleich zu eigenständigen ML-Tools zur Verfügung?

Diese Überlegungen helfen dabei, Vor- und Nachteile des datenbankinternen maschinellen Lernens realistisch einzuschätzen und die richtige Wahl für jedes Projekt zu treffen.

Welche zukünftigen Trends prägen datenbankinternes ML?

Anbieter erweitern und verbessern kontinuierlich ihre datenbankinternen Funktionen für maschinelles Lernen – und damit zeichnen sich mehrere Trends ab. Mit der wachsenden Unterstützung durch Tools und Plattformen können Data Scientists künftig komplexere Modelle entwickeln und bereitstellen. Gleichzeitig steigt die Transparenz, da Modelle auf einer einheitlichen Plattform laufen und nicht mehr nur für jene sichtbar sind, die die jeweiligen ML-Tools verwenden. Mit steigenden Leistungsmerkmalen wächst zudem die Fähigkeit, deutlich größere Datenmengen zu verarbeiten. Dadurch lassen sich Trainings-, Test- und Bereitstellungsprozesse weiter beschleunigen.