Was ist ein Data Lakehouse?

Data Warehouse + Data Lake = Data Lakehouse

Ein Data Lakehouse kann als moderne Datenplattform definiert werden, die aus einer Kombination aus einem Data Lake und einem Data Warehouse besteht. Insbesondere nutzt ein Data Lakehouse die flexible Speicherung unstrukturierter Daten aus einem Data Lake und die Managementfeatures und -tools aus Data Warehouses und implementiert diese dann strategisch als größeres System. Diese Integration von zwei einzigartigen Tools bringt den Benutzern das Beste aus beiden Welten. Um ein Data Lakehouse noch weiter aufzuteilen, ist es wichtig, zuerst die Definition der beiden ursprünglichen Begriffe vollständig zu verstehen.

Data Lakehouse im Vergleich zu Data Lake und Data Warehouse

Wenn wir über ein Data Lakehouse sprechen, beziehen wir uns auf die kombinierte Nutzung aktueller Daten-Repository-Plattformen.

Wie kombiniert ein Data Lakehouse diese beiden Ideen? Im Allgemeinen entfernt ein Data Lakehouse die Silowände zwischen einem Data Lake und einem Data Warehouse. Das bedeutet, dass Daten einfach zwischen der kostengünstigen und flexiblen Speicherung eines Data Lakes in ein Data Warehouse und umgekehrt verschoben werden können. So erhalten Sie einfachen Zugriff auf die Managementtools eines Data Warehouse zur Implementierung von Schema und Governance, die häufig auf maschinellem Lernen und künstlicher Intelligenz zur Datenbereinigung basieren. Das Ergebnis erstellt ein Daten-Repository, in dem die erschwingliche, unstrukturierte Sammlung von Data Lakes und die robuste Bereitschaft eines Data Warehouse integriert werden. Indem ein Data Lakehouse den Speicherplatz für die Erfassung aus kuratierten Datenquellen bereitstellt und Tools und Features verwendet, die Daten für die geschäftliche Nutzung vorbereiten, werden Prozesse beschleunigt. In gewisser Weise sind Data Lakehouses Data Warehouses, die in den frühen 1980er Jahren konzeptionell entstanden sind, für unsere moderne, datengesteuerte Welt neu gestartet.

Features von Data Lakehouse

Mit einem Verständnis des allgemeinen Konzepts eines Data Lakehouses betrachten wir die spezifischen Elemente. Ein Data Lakehouse bietet viele Stücke, die aus historischen Data Lake- und Data Warehouse-Konzepten bekannt sind, aber auf eine Weise, die sie in etwas Neues und effektiver für die digitale Welt von heute zusammenführt.

Datenmanagement - Features

Ein Data Warehouse bietet in der Regel Datenmanagementfeatures wie Datenbereinigung, ETL und Schema-Durchsetzung. Diese werden als Mittel zur schnellen Datenvorbereitung in ein Data Lakehouse gebracht, mit dem Daten aus kuratierten Quellen natürlich zusammenarbeiten und für weitere Analyse- und Business Intelligence-(BI-)Tools vorbereitet werden können.

Speicherformate öffnen

Die Verwendung offener und standardisierter Speicherformate bedeutet, dass Daten aus kuratierten Datenquellen einen erheblichen Einstieg in die Zusammenarbeit und die Vorbereitung auf Analysen oder Berichte haben.

Flexibles Storage

Durch die Möglichkeit, Compute von Speicherressourcen zu trennen, kann der Speicher je nach Bedarf ganz einfach skaliert werden.

Unterstützung für Streaming

Viele Datenquellen nutzen Echtzeit-Streaming direkt von Geräten. Ein Data Lakehouse wurde entwickelt, um diese Art von Echtzeitaufnahme im Vergleich zu einem Standard-Data Warehouse besser zu unterstützen. Da die Welt stärker in Internet of Things-Geräte integriert wird, wird Echtzeit-Support immer wichtiger.

Diverse Workloads

Da ein Data Lakehouse die Features eines Data Warehouse und eines Data Lakes integriert, ist es eine ideale Lösung für eine Reihe verschiedener Workloads. Von Geschäftsberichten über Data-Science-Teams bis hin zu Analysetools können die inhärenten Eigenschaften eines Data Lakehouses verschiedene Workloads innerhalb einer Organisation unterstützen.

Vorteile eines Data Lakehouses: Eine moderne Datenplattform

Durch die Erstellung eines Data Lakehouse können Unternehmen ihren gesamten Datenmanagementprozess mit einer einheitlichen Datenplattform optimieren. Ein Data Lakehouse kann an die Stelle einzelner Lösungen treten, indem die Silowände zwischen mehreren Repositorys aufgeteilt werden. Diese Integration schafft einen viel effizienteren End-to-End-Prozess über kuratierte Datenquellen. Dadurch ergeben sich mehrere Vorteile.

  • Weniger Administrationsaufwand: Wenn Sie ein Data Lakehouse verwenden, können alle damit verbundenen Quellen ihre Daten für die Verwendung zugänglich und konsolidiert haben, anstatt sie aus Rohdaten zu extrahieren und für die Arbeit in einem Data Warehouse vorzubereiten.
  • Bessere Data Governance: Data Lakehouses vereinfachen und verbessern die Governance durch Konsolidierung von Ressourcen und Datenquellen. Sie werden mit einem standardisierten offenen Schema erstellt, das eine bessere Kontrolle über Sicherheit, Metriken, rollenbasierten Zugriff und andere wichtige Managementelemente ermöglicht.
  • Vereinfachte Standards: Data Warehouses haben ihren Ursprung in den 1980er Jahren, als die Konnektivität extrem begrenzt war. Dies bedeutet, dass lokalisierte Schemastandards oft in Organisationen, sogar Abteilungen, erstellt wurden. Heute gibt es offene Schemastandards für viele Datentypen, und Data Lakehouses nutzen dies, indem sie mehrere Datenquellen mit einem sich überschneidenden standardisierten Schema aufnehmen, um Prozesse zu vereinfachen.
  • Erhöhte Kosteneffektivität: Data Lakehouses werden mit Infrastruktur erstellt, die Rechenleistung und Speicher voneinander trennt. So können Sie einfach Speicher hinzufügen, ohne die Rechenleistung erhöhen zu müssen. Dadurch wird eine kostengünstige Skalierung mit dem einfachen Einsatz kostengünstiger Datenspeicherung ermöglicht.

Während einige Unternehmen ein Data Lakehouse erstellen, kaufen andere einen Data Lakehouse-Cloud-Service.

Erfolgsgeschichten: Data Lakehouse

Experian-Video-Thumbnail
Experian

Experian verbesserte die Leistung um 40 % und reduzierte die Kosten um 60 % bei der Verlagerung wichtiger Daten-Workloads von anderen Clouds in ein Data Lakehouse auf OCI, was die Datenverarbeitung und Produktinnovation beschleunigt und gleichzeitig die Kreditchancen weltweit erweitert.

Generali-Video-Thumbnail
Generali

Generali Group ist eine italienische Versicherungsgesellschaft mit einer der größten Kundengrundlagen der Welt. Generali hatte zahlreiche Datenquellen, sowohl von Oracle Cloud HCM als auch von anderen lokalen und regionalen Quellen. Ihr HR-Entscheidungsprozess und das Mitarbeiterengagement setzten Hindernisse, und das Unternehmen suchte nach einer Lösung zur Verbesserung der Effizienz. Durch die Integration von Oracle Autonomous Data Warehouse in die Datenquellen von Generali wurden Silos entfernt und eine einzelne Ressource für alle HR-Analysen erstellt. Dies verbesserte die Effizienz und verbesserte die Produktivität der HR-Mitarbeiter, sodass sie sich eher auf wertschöpfende Aktivitäten als auf die Abwanderung von Berichten konzentrieren können.

Lyft-Video-Thumbnail
Lyft

Lyft, einer der weltweit führenden Rideshare-Anbieter, hatte mit 30 verschiedenen isolierten Finanzsystemen zu tun. Diese Trennung behinderte das Wachstum des Unternehmens und verlangsamte Prozesse. Durch die Integration von Oracle Cloud ERP und Oracle Cloud EPM mit Oracle Autonomous Data Warehouse konnte Lyft Finanzen, Betrieb und Analysen auf einem System konsolidieren. Dies hat die Zeit, seine Bücher um 50% zu schließen, mit dem Potenzial für noch weitere Prozessoptimierung. Dies spart auch Kosten durch Reduzierung der Leerlaufzeit.

Agroscout-Video-Thumbnail
Agroscout

Agroscout ist ein Softwareentwickler, der Landwirten hilft, gesunde und sichere Kulturen zu maximieren. Um die Lebensmittelproduktion zu steigern, nutzte Agroscout ein Netzwerk von Drohnen, um die Ernte von Bugs oder Krankheiten zu untersuchen. Das Unternehmen brauchte eine effiziente Möglichkeit, die Daten sowohl zu konsolidieren als auch zu verarbeiten, um Anzeichen von Pflanzengefahr zu erkennen. Mit Oracle Object Storage Data Lake wurden die Drohnen direkt hochgeladen. Modelle für maschinelles Lernen wurden mit OCI Data Science zur Verarbeitung der Images erstellt. Das Ergebnis war ein erheblich verbesserter Prozess, der eine schnelle Reaktion auf die Steigerung der Nahrungsmittelproduktion ermöglichte.

Erfahren Sie, warum OCI der beste Ort ist, um ein Lakehouse zu erstellen

Mit jedem Tag senden immer mehr Datenquellen weltweit größere Datenmengen. Für jedes Unternehmen stellt diese Kombination aus strukturierten und unstrukturierten Daten weiterhin eine Herausforderung dar. Data Lakehouses verknüpfen, korrelieren und analysieren diese verschiedenen Ausgaben in einem einzigen verwaltbaren System.