Che cos'è un Data Lakehouse?

Data Warehouse + Data Lake = Data Lakehouse

Un data lakehouse può essere definito come una piattaforma dati moderna creata da una combinazione di un data lake e di un data warehouse. In particolare, un data lakehouse utilizza lo storage flessibile di dati non strutturati da un data lake e le funzioni e gli strumenti di gestione dei data warehouse, quindi li implementa strategicamente insieme come sistema più grande. Questa integrazione di due strumenti unici porta il meglio di entrambi i mondi agli utenti. Per suddividere ulteriormente un data lakehouse, è importante prima comprendere appieno la definizione dei due termini originali.

Confronto tra data lakehouse, data lake e data warehouse

Quando parliamo di un data lakehouse, ci riferiamo all'uso combinato delle piattaforme di repository di dati attualmente esistenti:

  • Data lake (il "lake" in lakehouse): un data lake è un repository di storage a basso costo utilizzato principalmente dai data scientist, ma anche dagli analisti aziendali, dai product manager e da altri tipi di utenti finali. È un concetto di big data. I dati grezzi non strutturati provenienti da varie origini organizzative vengono inseriti nel lake, spesso per lo staging prima del caricamento in un data warehouse e della creazione di data set.


  • Data warehouse (l'"house" in lakehouse): un data warehouse è un tipo diverso di repository di storage di un data lake in quanto un data warehouse memorizza i dati elaborati e strutturati, curati per uno scopo specifico e memorizzati in un formato specificato. Questi dati vengono in genere sottoposti a query da parte degli utenti aziendali, che utilizzano i dati preparati negli strumenti di analisi per il reporting e le proiezioni. Un data warehouse in genere include funzioni di gestione dei dati quali la pulizia e l'estrazione, il caricamento e la trasformazione dei dati (ETL).

In che modo un data lakehouse unisce queste due idee? In generale, un data lakehouse rimuove i "muri" che dividono data lake e data warehouse. Ciò significa che i dati possono essere facilmente spostati dallo storage a basso costo e flessibile di un data lake in un data warehouse e viceversa, offrendo un accesso semplificato agli strumenti di gestione di un data warehouse per l'implementazione dello schema e della governance, spesso basati sull'apprendimento automatico e sull'intelligenza artificiale per la pulizia dei dati. Il risultato crea un repository di dati che integra una raccolta di data lake conveniente e non strutturata e la robusta preparazione di un data warehouse. Fornendo lo spazio necessario per raccogliere da fonti di dati curate utilizzando al contempo strumenti e funzionalità che preparano i dati per l'uso aziendale, un data lakehouse accelera i processi. In un certo senso, i data lakehouse sono data warehouse, che hanno origine concettualmente ai primi anni del 1980, rielaborati per il nostro mondo moderno basato sui dati.

Caratteristiche di un data lakehouse

Avendo compreso il concetto generale di un data lakehouse, esaminiamo un po' più in profondità gli elementi specifici coinvolti. Un data lakehouse offre molte parti simili ai concetti storici di data lake e data warehouse, ma in un modo che li unisce in qualcosa di nuovo e più efficace per il mondo digitale di oggi.

Funzioni di gestione dei dati

Un data warehouse in genere offre funzioni di gestione dei dati quali la pulizia dei dati, l'ETL e l'applicazione dello schema. Questi dati vengono inseriti in un data lakehouse come mezzo per preparare rapidamente i dati, consentendo ai dati provenienti da fonti curate di lavorare naturalmente insieme ed essere preparati per ulteriori strumenti di analisi e di business intelligence (BI).

Formati di storage aperti

L'uso di formati di storage aperti e standardizzati implica che i dati provenienti da origini dati curate hanno un grande vantaggio nell'essere in grado di lavorare insieme ed essere pronti per gli analytics o il reporting.

Storage flessibile

La possibilità di separare la computazione dalle risorse di storage semplifica la scalabilità dello storage in base alle esigenze.

Supporto per lo streaming

Molte origini dati utilizzano lo streaming in tempo reale direttamente dai dispositivi. Un data lakehouse è progettato per supportare meglio questo tipo di ingestione in tempo reale rispetto a un data warehouse standard. Poiché il mondo diventa più integrato con i dispositivi Internet of Things, il supporto in tempo reale diventa sempre più importante.

Carichi di lavoro diversi

Poiché un data lakehouse integra le funzioni di un data warehouse e di un data lake, è una soluzione ideale per una serie di carichi di lavoro diversi. Dal reporting aziendale ai team di data science agli strumenti di analisi, le qualità intrinseche di un data lakehouse possono supportare carichi di lavoro diversi all'interno di un'organizzazione.

Vantaggi di un data lakehouse: una piattaforma dati moderna

Attraverso la creazione di un data lakehouse, le organizzazioni possono snellire il processo complessivo di gestione dei dati con una piattaforma dati moderna unificata. Un data lakehouse può sostituire singole soluzioni togliendo i "muri" che separano più repository. Questa integrazione crea un processo end-to-end molto più efficiente rispetto alle origini dati curate. Ciò crea una serie di vantaggi:

  • Minore amministrazione: utilizzando un data lakehouse, qualsiasi origine ad esso collegata può avere i propri dati accessibili e consolidati per l'uso, invece di estrarli dai dati grezzi e prepararsi a lavorare all'interno di un data warehouse.
  • Migliore governance dei dati: i data lakehouse semplificano e migliorano la governance consolidando risorse e origini dati e sono realizzati con uno schema aperto standardizzato che consente un maggiore controllo su sicurezza, metriche, accesso basato su ruoli e altri elementi di gestione critici.
  • Standard semplificati: i data warehouse hanno origine negli anni 1980, quando la connettività era estremamente limitata, il che significa che gli standard di schema localizzati venivano spesso creati all'interno di organizzazioni, persino reparti. Oggi esistono standard aperti per lo schema per molti tipi di dati e i data lakehouse ne traggono vantaggio incorporando più origini dati con schema standardizzato sovrapposto per semplificare i processi.
  • Maggiore efficienza in termini di costi: i data lakehouse sono realizzati con un'infrastruttura moderna che separa la computazione e lo storage, il che consente un facile aggiunta di storage senza dover aumentare la potenza di computazione. In questo modo si crea una scalabilità a costi contenuti grazie al semplice uso di storage dei dati a costi contenuti.

Storie di successo dei clienti: data lakehouse

Anteprima video Experian
Experian

Experian ha migliorato le prestazioni del 40% e ridotto i costi del 60% quando ha spostato i carichi di lavoro critici di dati da altri cloud a una data lakehouse su OCI, accelerando l'elaborazione dei dati e l'innovazione dei prodotti ed espandendo al contempo le opportunità di credito in tutto il mondo.

Anteprima video Generali
Generali

Generali Group è una compagnia assicurativa italiana con una delle più grandi basi clienti al mondo. Generali aveva numerose fonti di dati, sia da Oracle Cloud HCM che da altre fonti locali e regionali. Il processo decisionale HR e il coinvolgimento dei dipendenti stavano incontrando ostacoli, e l'azienda cercava una soluzione per migliorare l'efficienza. Integrazione di Oracle Autonomous Data Warehouse con le origini dati di Generali, rimozione di silos e creazione di una singola risorsa per tutte le analisi HR. Questa maggiore efficienza e una maggiore produttività tra il personale HR hanno consentito di concentrarsi su attività a valore aggiunto piuttosto che sull'abbandono della generazione di report.

Anteprima video di Lyft
Lyft

Uno dei principali fornitori di rideshare al mondo, Lyft doveva gestire 30 diversi sistemi finanziari separati. Questa separazione ha ostacolato la crescita dell'azienda e rallentato i processi. Integrando Oracle Cloud ERP e Oracle Cloud EPM con Oracle Autonomous Data Warehouse, Lyft è riuscita a consolidare Finance, operations e analytics in un unico sistema. Questo ha ridotto i suoi tempi di chiudere finanziaria del 50%, con il potenziale per un ulteriore processo di semplificazione. Ciò ha consentito di risparmiare anche sui costi, riducendo le ore di inattività.

Anteprima video Agroscout
Agroscout

Agroscout è uno sviluppatore software che aiuta gli agricoltori a massimizzare le colture sane e sicure. Per aumentare la produzione alimentare, Agroscout ha utilizzato una rete di droni per sondare colture per scovare insetti o malattie. L'organizzazione aveva bisogno di un modo efficiente per consolidare i dati e elaborarli per identificare i segni di pericolo delle colture. Grazie Oracle Object Storage Data Lake, i droni hanno caricato direttamente le colture. I modelli di Machine Learning sono stati creati con OCI Data Science per elaborare le immagini. Il risultato è stato un processo notevolmente migliorato che ha permesso una risposta rapida per aumentare la produzione alimentare.

Scopri perché OCI è il posto migliore per creare un lakehouse

Sempre più origini dati, ogni giorno che passa, inviano un maggior numero di volumi di dati a livello globale. Questa combinazione di dati strutturati e non strutturati continua ad essere una sfida per qualsiasi organizzazione. I data lakehouse collegano, correlano e analizzano questi diversi output in un singolo sistema gestibile.