Ein Data Lakehouse kann als moderne Datenplattform definiert werden, die aus einer Kombination aus einem Data Lake und einem Data Warehouse besteht. Insbesondere nutzt ein Data Lakehouse die flexible Speicherung unstrukturierter Daten aus einem Data Lake und die Managementfeatures und -tools aus Data Warehouses und implementiert diese dann strategisch als größeres System. Diese Integration von zwei einzigartigen Tools bringt den Benutzern das Beste aus beiden Welten. Um ein Data Lakehouse noch weiter aufzuteilen, ist es wichtig, zuerst die Definition der beiden ursprünglichen Begriffe vollständig zu verstehen.
Wenn wir über ein Data Lakehouse sprechen, beziehen wir uns auf die kombinierte Nutzung aktueller Daten-Repository-Plattformen.
Wie kombiniert ein Data Lakehouse diese beiden Ideen? Im Allgemeinen entfernt ein Data Lakehouse die Silowände zwischen einem Data Lake und einem Data Warehouse. Das bedeutet, dass Daten einfach zwischen der kostengünstigen und flexiblen Speicherung eines Data Lakes in ein Data Warehouse und umgekehrt verschoben werden können. So erhalten Sie einfachen Zugriff auf die Managementtools eines Data Warehouse zur Implementierung von Schema und Governance, die häufig auf maschinellem Lernen und künstlicher Intelligenz zur Datenbereinigung basieren. Das Ergebnis erstellt ein Daten-Repository, in dem die erschwingliche, unstrukturierte Sammlung von Data Lakes und die robuste Bereitschaft eines Data Warehouse integriert werden. Indem ein Data Lakehouse den Speicherplatz für die Erfassung aus kuratierten Datenquellen bereitstellt und Tools und Features verwendet, die Daten für die geschäftliche Nutzung vorbereiten, werden Prozesse beschleunigt. In gewisser Weise sind Data Lakehouses Data Warehouses, die in den frühen 1980er Jahren konzeptionell entstanden sind, für unsere moderne, datengesteuerte Welt neu gestartet.
Mit einem Verständnis des allgemeinen Konzepts eines Data Lakehouses betrachten wir die spezifischen Elemente. Ein Data Lakehouse bietet viele Stücke, die aus historischen Data Lake- und Data Warehouse-Konzepten bekannt sind, aber auf eine Weise, die sie in etwas Neues und effektiver für die digitale Welt von heute zusammenführt.
Ein Data Warehouse bietet in der Regel Datenmanagementfeatures wie Datenbereinigung, ETL und Schema-Durchsetzung. Diese werden als Mittel zur schnellen Datenvorbereitung in ein Data Lakehouse gebracht, mit dem Daten aus kuratierten Quellen natürlich zusammenarbeiten und für weitere Analyse- und Business Intelligence-(BI-)Tools vorbereitet werden können.
Die Verwendung offener und standardisierter Speicherformate bedeutet, dass Daten aus kuratierten Datenquellen einen erheblichen Einstieg in die Zusammenarbeit und die Vorbereitung auf Analysen oder Berichte haben.
Durch die Möglichkeit, Compute von Speicherressourcen zu trennen, kann der Speicher je nach Bedarf ganz einfach skaliert werden.
Viele Datenquellen nutzen Echtzeit-Streaming direkt von Geräten. Ein Data Lakehouse wurde entwickelt, um diese Art von Echtzeitaufnahme im Vergleich zu einem Standard-Data Warehouse besser zu unterstützen. Da die Welt stärker in Internet of Things-Geräte integriert wird, wird Echtzeit-Support immer wichtiger.
Da ein Data Lakehouse die Features eines Data Warehouse und eines Data Lakes integriert, ist es eine ideale Lösung für eine Reihe verschiedener Workloads. Von Geschäftsberichten über Data-Science-Teams bis hin zu Analysetools können die inhärenten Eigenschaften eines Data Lakehouses verschiedene Workloads innerhalb einer Organisation unterstützen.
Durch die Erstellung eines Data Lakehouse können Unternehmen ihren gesamten Datenmanagementprozess mit einer einheitlichen Datenplattform optimieren. Ein Data Lakehouse kann an die Stelle einzelner Lösungen treten, indem die Silowände zwischen mehreren Repositorys aufgeteilt werden. Diese Integration schafft einen viel effizienteren End-to-End-Prozess über kuratierte Datenquellen. Dadurch ergeben sich mehrere Vorteile.
Während einige Unternehmen ein Data Lakehouse erstellen, kaufen andere einen Data Lakehouse-Cloud-Service.
Experian verbesserte die Leistung um 40 % und reduzierte die Kosten um 60 % bei der Verlagerung wichtiger Daten-Workloads von anderen Clouds in ein Data Lakehouse auf OCI, was die Datenverarbeitung und Produktinnovation beschleunigt und gleichzeitig die Kreditchancen weltweit erweitert.
Generali Group ist eine italienische Versicherungsgesellschaft mit einer der größten Kundengrundlagen der Welt. Generali hatte zahlreiche Datenquellen, sowohl von Oracle Cloud HCM als auch von anderen lokalen und regionalen Quellen. Ihr HR-Entscheidungsprozess und das Mitarbeiterengagement setzten Hindernisse, und das Unternehmen suchte nach einer Lösung zur Verbesserung der Effizienz. Durch die Integration von Oracle Autonomous Data Warehouse in die Datenquellen von Generali wurden Silos entfernt und eine einzelne Ressource für alle HR-Analysen erstellt. Dies verbesserte die Effizienz und verbesserte die Produktivität der HR-Mitarbeiter, sodass sie sich eher auf wertschöpfende Aktivitäten als auf die Abwanderung von Berichten konzentrieren können.
Lyft, einer der weltweit führenden Rideshare-Anbieter, hatte mit 30 verschiedenen isolierten Finanzsystemen zu tun. Diese Trennung behinderte das Wachstum des Unternehmens und verlangsamte Prozesse. Durch die Integration von Oracle Cloud ERP und Oracle Cloud EPM mit Oracle Autonomous Data Warehouse konnte Lyft Finanzen, Betrieb und Analysen auf einem System konsolidieren. Dies hat die Zeit, seine Bücher um 50% zu schließen, mit dem Potenzial für noch weitere Prozessoptimierung. Dies spart auch Kosten durch Reduzierung der Leerlaufzeit.
Agroscout ist ein Softwareentwickler, der Landwirten hilft, gesunde und sichere Kulturen zu maximieren. Um die Lebensmittelproduktion zu steigern, nutzte Agroscout ein Netzwerk von Drohnen, um die Ernte von Bugs oder Krankheiten zu untersuchen. Das Unternehmen brauchte eine effiziente Möglichkeit, die Daten sowohl zu konsolidieren als auch zu verarbeiten, um Anzeichen von Pflanzengefahr zu erkennen. Mit Oracle Object Storage Data Lake wurden die Drohnen direkt hochgeladen. Modelle für maschinelles Lernen wurden mit OCI Data Science zur Verarbeitung der Images erstellt. Das Ergebnis war ein erheblich verbesserter Prozess, der eine schnelle Reaktion auf die Steigerung der Nahrungsmittelproduktion ermöglichte.
Mit jedem Tag senden immer mehr Datenquellen weltweit größere Datenmengen. Für jedes Unternehmen stellt diese Kombination aus strukturierten und unstrukturierten Daten weiterhin eine Herausforderung dar. Data Lakehouses verknüpfen, korrelieren und analysieren diese verschiedenen Ausgaben in einem einzigen verwaltbaren System.