Un data lakehouse può essere definito come una piattaforma dati moderna creata da una combinazione di un data lake e di un data warehouse. In particolare, un data lakehouse utilizza lo storage flessibile di dati non strutturati da un data lake e le funzioni e gli strumenti di gestione dei data warehouse, quindi li implementa strategicamente insieme come sistema più grande. Questa integrazione di due strumenti unici porta il meglio di entrambi i mondi agli utenti. Per suddividere ulteriormente un data lakehouse, è importante prima comprendere appieno la definizione dei due termini originali.
Quando parliamo di un data lakehouse, ci riferiamo all'uso combinato delle piattaforme di repository di dati attualmente esistenti:
In che modo un data lakehouse unisce queste due idee? In generale, un data lakehouse rimuove i "muri" che dividono data lake e data warehouse. Ciò significa che i dati possono essere facilmente spostati dallo storage a basso costo e flessibile di un data lake in un data warehouse e viceversa, offrendo un accesso semplificato agli strumenti di gestione di un data warehouse per l'implementazione dello schema e della governance, spesso basati sull'apprendimento automatico e sull'intelligenza artificiale per la pulizia dei dati. Il risultato crea un repository di dati che integra una raccolta di data lake conveniente e non strutturata e la robusta preparazione di un data warehouse. Fornendo lo spazio necessario per raccogliere da fonti di dati curate utilizzando al contempo strumenti e funzionalità che preparano i dati per l'uso aziendale, un data lakehouse accelera i processi. In un certo senso, i data lakehouse sono data warehouse, che hanno origine concettualmente ai primi anni del 1980, rielaborati per il nostro mondo moderno basato sui dati.
Avendo compreso il concetto generale di un data lakehouse, esaminiamo un po' più in profondità gli elementi specifici coinvolti. Un data lakehouse offre molte parti simili ai concetti storici di data lake e data warehouse, ma in un modo che li unisce in qualcosa di nuovo e più efficace per il mondo digitale di oggi.
Un data warehouse in genere offre funzioni di gestione dei dati quali la pulizia dei dati, l'ETL e l'applicazione dello schema. Questi dati vengono inseriti in un data lakehouse come mezzo per preparare rapidamente i dati, consentendo ai dati provenienti da fonti curate di lavorare naturalmente insieme ed essere preparati per ulteriori strumenti di analisi e di business intelligence (BI).
L'uso di formati di storage aperti e standardizzati implica che i dati provenienti da origini dati curate hanno un grande vantaggio nell'essere in grado di lavorare insieme ed essere pronti per gli analytics o il reporting.
La possibilità di separare la computazione dalle risorse di storage semplifica la scalabilità dello storage in base alle esigenze.
Molte origini dati utilizzano lo streaming in tempo reale direttamente dai dispositivi. Un data lakehouse è progettato per supportare meglio questo tipo di ingestione in tempo reale rispetto a un data warehouse standard. Poiché il mondo diventa più integrato con i dispositivi Internet of Things, il supporto in tempo reale diventa sempre più importante.
Poiché un data lakehouse integra le funzioni di un data warehouse e di un data lake, è una soluzione ideale per una serie di carichi di lavoro diversi. Dal reporting aziendale ai team di data science agli strumenti di analisi, le qualità intrinseche di un data lakehouse possono supportare carichi di lavoro diversi all'interno di un'organizzazione.
Attraverso la creazione di un data lakehouse, le organizzazioni possono snellire il processo complessivo di gestione dei dati con una piattaforma dati moderna unificata. Un data lakehouse può sostituire singole soluzioni togliendo i "muri" che separano più repository. Questa integrazione crea un processo end-to-end molto più efficiente rispetto alle origini dati curate. Ciò crea una serie di vantaggi:
Experian ha migliorato le prestazioni del 40% e ridotto i costi del 60% quando ha spostato i carichi di lavoro critici di dati da altri cloud a una data lakehouse su OCI, accelerando l'elaborazione dei dati e l'innovazione dei prodotti ed espandendo al contempo le opportunità di credito in tutto il mondo.
Generali Group è una compagnia assicurativa italiana con una delle più grandi basi clienti al mondo. Generali aveva numerose fonti di dati, sia da Oracle Cloud HCM che da altre fonti locali e regionali. Il processo decisionale HR e il coinvolgimento dei dipendenti stavano incontrando ostacoli, e l'azienda cercava una soluzione per migliorare l'efficienza. Integrazione di Oracle Autonomous Data Warehouse con le origini dati di Generali, rimozione di silos e creazione di una singola risorsa per tutte le analisi HR. Questa maggiore efficienza e una maggiore produttività tra il personale HR hanno consentito di concentrarsi su attività a valore aggiunto piuttosto che sull'abbandono della generazione di report.
Uno dei principali fornitori di rideshare al mondo, Lyft doveva gestire 30 diversi sistemi finanziari separati. Questa separazione ha ostacolato la crescita dell'azienda e rallentato i processi. Integrando Oracle Cloud ERP e Oracle Cloud EPM con Oracle Autonomous Data Warehouse, Lyft è riuscita a consolidare Finance, operations e analytics in un unico sistema. Questo ha ridotto i suoi tempi di chiudere finanziaria del 50%, con il potenziale per un ulteriore processo di semplificazione. Ciò ha consentito di risparmiare anche sui costi, riducendo le ore di inattività.
Agroscout è uno sviluppatore software che aiuta gli agricoltori a massimizzare le colture sane e sicure. Per aumentare la produzione alimentare, Agroscout ha utilizzato una rete di droni per sondare colture per scovare insetti o malattie. L'organizzazione aveva bisogno di un modo efficiente per consolidare i dati e elaborarli per identificare i segni di pericolo delle colture. Grazie Oracle Object Storage Data Lake, i droni hanno caricato direttamente le colture. I modelli di Machine Learning sono stati creati con OCI Data Science per elaborare le immagini. Il risultato è stato un processo notevolmente migliorato che ha permesso una risposta rapida per aumentare la produzione alimentare.
Sempre più origini dati, ogni giorno che passa, inviano un maggior numero di volumi di dati a livello globale. Questa combinazione di dati strutturati e non strutturati continua ad essere una sfida per qualsiasi organizzazione. I data lakehouse collegano, correlano e analizzano questi diversi output in un singolo sistema gestibile.