Che cos'è un Data Lake?

3 marzo 2022

In questo articolo

Data Lake definiti
Data lake e data warehouse a confronto
Casi d'uso dei data lake
Diversi tipi di piattaforme di data lake
Data lakehouse, il futuro del data lake?
Creazione di un data lake

Data Lake definiti

Ecco una semplice definizione: un data lake è un'area in cui memorizzare i dati strutturati e non strutturati e un metodo per organizzare grandi volumi di dati altamente diversi provenienti da origini differenti.

I data lake sono sempre più importanti in quanto le persone, in particolare nelle aziende e nella tecnologia, vogliono eseguire l'esplorazione e la scoperta dei dati. Riunire i dati in un unico luogo o la maggior parte di essi in un unico punto ne semplifica le procedure.

A seconda della piattaforma in uso, il data lake può semplificare notevolmente le operazioni. Può gestire molte strutture di dati, ad esempio dati non strutturati e multistrutturati, e può aiutarti a ottenere valore dai tuoi dati.

Data lake e data warehouse a confronto

La differenza principale tra un data lake e un data warehouse consiste nel fatto che il data lake tende a inserire i dati in modo molto rapido e a prepararli in seguito quando le persone vi accedono. D'altra parte, un data warehouse prepari i dati con estrema attenzione prima di permetterti di accedere al data warehouse.

Gli utenti tendono a includere i dati nel data lake nel più breve tempo possibile, in modo che le aziende con casi d'uso operativi, soprattutto nei report, nell'analisi e nel monitoraggio aziendale, abbiano i dati più recenti. Ciò consente loro di accedere ai dati più recenti e di visualizzare le informazioni più aggiornate.

Con il data lake, gli utenti spesso inseriscono i dati nel formato originale senza modificarli. Questo può essere per motivi di velocità, ma può anche essere per altri motivi, incluso il desiderio di eseguire analisi avanzate che possono dipendere da dati di origine dettagliati. Sarebbe un'analisi basata su qualsiasi tipo di estrazione, che si tratti di:

Estrazione di testo
Estrazione di dati
Analisi statistica
Qualunque cosa che coinvolga i cluster
Analytics dei grafici

Casi d'uso dei data lake

Per offrire tutti i vantaggi che i data lake possono offrire, una soluzione adeguata dovrebbe essere in grado di offrire modi migliori per:

Inserimento e trasformazione: consente di spostare e convertire tipi e formati diversi di dati
Persistenza e accesso: assicura la sicurezza dei dati, la possibilità di individuarli facilmente, ridimensionarli in base alle esigenze e accedervi in base alle esigenze di tutti i prodotti.
Analisi e uso del data science: scopri insight e tendenze all'interno dei dati

Un data lake è più utile quando fa parte di una piattaforma di gestione dei dati più grande e si integra bene con i dati e gli strumenti esistenti per un data lake più potente.

Data lake marketing omnicanale

L'utilizzo del data lake per estendere il data warehouse è spesso associato al marketing omnicanale, a volte chiamato marketing multicanale. Il modo per pensare all'ecosistema dei dati nel marketing è che ogni canale può essere il proprio database e anche ogni punto di contatto può esserlo. E poi molti professionisti del marketing acquistano anche dati da terze parti.

Ad esempio, un professionista del marketing potrebbe voler acquistare dati con ulteriori informazioni demografiche e sulle preferenze dei consumatori relative a clienti e clienti potenziali e ciò consente all'operatore del marketing di ottenere una visione completa di ogni cliente, il che a sua volta contribuisce a creare campagne di marketing più personalizzate e mirate.

Si tratta di un ecosistema di dati complesso e sta diventando sempre più grande in termini di volume e complessità. Il data lake viene spesso adottato per acquisire i dati provenienti da più canali e punti di contatto. Alcuni di loro in realtà sono dati in streaming.

Le aziende che offrono un'app per smartphone ai propri clienti possono ricevere tali dati in tempo reale o quasi, mentre i clienti utilizzano tale app. Molte volte, l'azienda non ha davvero bisogno del tempo reale. Potrebbe essere un'ora o due dopo. Permette però al reparto marketing di svolgere un monitoraggio molto granulare del business e creare promozioni, incentivi, sconti e micro-campagne.

Data lake della supply chain digitale

La supply chain digitale è un ambiente di dati altrettanto vario e il data lake può aiutarti, soprattutto quando il data lake è su Hadoop. Hadoop è in gran parte un sistema basato su file perché è stato progettato in origine per file di log molto grandi e numerosi che provengono da server Web. Nella supply chain è spesso presente una grande quantità di dati basati su file. Pensiamo ai dati basati su file e documenti provenienti da sistemi EDI, XML e, naturalmente, i JSON porovenienti dalla supply chain digitale. Si tratta di informazioni molto diverse.

Ci sono anche informazioni interne da considerare. I produttori spesso dispongono di dati provenienti dal reparto produttivo, dalla spedizione e dalla fatturazione, che sono estremamente importanti per la catena di fornitura. Il lake può aiutare i produttori a riunire questi dati e gestirli in un modo basato su file.

Data lake di Internet of Things

Internet of Things crea nuove fonti di dati quasi quotidianamente in alcune aziende. Naturalmente, poiché tali fonti si diversificano, creano ancora più dati. Sempre più spesso, ci sono sensori su più macchinari. Ad esempio, ogni veicolo merci per ferrovia o camion ha un enorme elenco di sensori in modo che l'azienda possa tracciare il veicolo attraverso lo spazio e il tempo, oltre a vedere come funziona. Funziona in modo sicuro? Funziona in modo ottimale rispetto al consumo di carburante? Da questi luoghi arrivano enormi quantità di informazioni e il data lake è molto diffuso perché fornisce un repository per tutti questi dati.

Un singolo data lake

Ora, questi sono esempi di usi abbastanza mirati del data lake in alcuni dipartimenti o programmi IT, ma un approccio diverso è quello per l'IT centralizzato di fornire un singolo grande data lake multitenant. Può essere utilizzato da molti reparti, business unit e programmi tecnologici diversi. Quando le persone si abituano al lake, scoprono come ottimizzarlo per usi e operazioni diversi, analisi dei dati e anche compliance.

Diversi tipi di piattaforme di data lake

Il data lake può essere utilizzato in molti modi e ha anche molte piattaforme sottostanti. Hadoop è la piattaforma più comune, ma nonè l'unica.

Hadoop

Hadoop è interessante. Ha dimostrato di avere una scalabilità lineare. Si tratta di un basso costo di scalabilità rispetto, ad esempio, a un database relazionale. Tuttavia, Hadoop non è solo uno storage economico. È anche una potente piattaforma di elaborazione. E per chi cerca di eseguire l'analisi algoritmica, Hadoop può essere molto utile.

Sistema di gestione di database relazionali

Il sistema di gestione del database relazionale può anche essere una piattaforma per il data lake, perché alcune persone hanno enormi quantità di dati che vogliono inserire nel lake, strutturato e anche relazionale. Quindi, se i tuoi dati sono intrinsecamente relazionali, un approccio DBMS per il data lake sarebbe perfetto. Inoltre, se si dispone di casi d'uso in cui si desidera eseguire funzionalità relazionali, come SQL o unioni di tabelle complesse, l'RDBMS è perfetto.

Storage basato sul cloud

Tuttavia, la tendenza è verso i sistemi basati sul cloud, in particolare verso lo storage basato sul cloud. Il grande vantaggio del cloud è la scalabilità elastica. Possono eseguire il marshalling delle risorse server e di altre risorse in base allo scale-up dei carichi di lavoro. Rispetto a molti sistemi on-premise, il cloud può essere a basso costo. Parte del motivo è perché non esiste l'integrazione del sistema.

Se vuoi fare qualcosa on-premise, devi eseguire l'integrazione dei sistemi in più mesi, mentre per molti sistemi c'è un provider cloud che li ha già integrati. In pratica si acquista una licenza e si può essere operativi entro ore anziché mesi. Inoltre, l'approccio dell'area di memorizzazione degli oggetti nel cloud, citato in un post precedente sulle migliori prassi del data lake, presenta molti vantaggi.

E naturalmente, si può avere un mix ibrido di piattaforme con un data lake. Se hai familiarità con quello che chiamiamo il data warehouse logico, puoi anche avere un aspetto simile come un data warehouse logico, e questo è un data lake logico. Questo è il punto in cui i dati vengono distribuiti fisicamente su più piattaforme. E ci sono alcune sfide per questo, come la necessità di strumenti speciali validi con query federate o virtualizzazione dei dati per query analitiche di vasta portata.

Ma questa tecnologia è disponibile a livello di strumento e molte persone la stanno utilizzando.

Data lakehouse, il futuro del data lake?

Nel tentativo di ottenere più valore dai propri dati, le aziende cercano sempre di superare i propri confini. Grazie all'elaborazione basata sul cloud, ora spesso combinano le tecnologie dei data lake e i data warehouse in un'unica architettura denominata "data lakehouse". I vantaggi di un data lakehouse includono una migliore integrazione, meno spostamento dei dati, migliore governance dei dati e supporto per più casi d'uso.

Scopri di più sul data lakehouse di Oracle

Creazione di un data lake

Il data lake è la tua risposta per organizzare tutti questi grandi volumi di dati diversi provenienti da fonti differenti. E se sei pronto per iniziare a usare un data lake, ti offriamo Oracle Free Tier per iniziare.

Data Lake Free Tier