Spiacenti, impossibile trovare dei risultati che corrispondono alla tua ricerca.

È consigliabile provare quanto segue per riuscire a trovare quello che stai cercando:

  • Controlla l'ortografia della ricerca per parola chiave.
  • Utilizza sinonimi per la parola chiave digitata, ad esempio prova “applicazione” anziché “software”.
  • Inizia una nuova ricerca.
Contattaci Registrati su Oracle Cloud

Che cos'è un Data Lake?

Data Lake definiti

Ecco una semplice definizione: un data lake è un'area in cui memorizzare i dati strutturati e non strutturati e un metodo per organizzare grandi volumi di dati altamente diversi provenienti da fonti differenti. I data lake sono sempre più importanti in quanto le persone, in ambito aziendale e tecnologico, vogliono eseguire l'esplorazione e la scoperta dei dati.

I data lake sono sempre più importanti in quanto le persone, in particolare nelle aziende e nella tecnologia, vogliono eseguire l'esplorazione e la scoperta dei dati. Riunire i dati in un unico luogo o la maggior parte di essi in un unico punto ne semplifica le procedure.

A seconda della piattaforma in uso, il data lake può semplificare notevolmente le operazioni. Può gestire molte strutture di dati, ad esempio dati non strutturati e multistrutturati, e può aiutarti a ottenere valore dai tuoi dati.


Data lake e data warehouse a confronto

La differenza principale tra un data lake e un data warehouse consiste nel fatto che il data lake tende a inserire i dati in modo molto rapido e a prepararli in seguito quando le persone vi accedono. D'altra parte, un data warehouse prepari i dati con estrema attenzione prima di permetterti di accedere al data warehouse.

Gli utenti tendono a includere i dati nel data lake nel più breve tempo possibile, in modo che le aziende con casi d'uso operativi, soprattutto nei report, nell'analisi e nel monitoraggio aziendale, abbiano i dati più recenti. Ciò consente loro di accedere ai dati più recenti e di visualizzare le informazioni più aggiornate.

Con il data lake, gli utenti spesso inseriscono i dati nel formato originale senza modificarli. Questo per avere un accesso rapido dei dati, o per altri motivi, incluso il desiderio di eseguire analisi avanzate che possono prevedere dati di origine dettagliati. Sarebbe un'analisi basata su qualsiasi tipo di estrazione, che si tratti di:

  • Estrazione di testo
  • Estrazione di dati
  • Analisi statistica
  • Qualunque cosa che coinvolga i cluster
  • Analytics dei grafici

Casi d'uso dei data lake

Per offrire tutti i vantaggi che i data lake possono offrire, una soluzione adeguata dovrebbe avere:

  • Inserimento e trasformazione: consente di spostare e convertire tipi e formati diversi di dati
  • Persistenza e accesso: assicura la sicurezza dei dati, la possibilità di individuarli facilmente, ridimensionarli in base alle esigenze e accedervi in base alle esigenze di tutti i prodotti.
  • Analisi e uso del data science: scopri insight e tendenze all'interno dei dati

Un data lake è più utile quando fa parte di una piattaforma di gestione dei dati più grande e si integra bene con i dati e gli strumenti esistenti per un data lake più potente.

Data lake marketing omnicanale

L'utilizzo del data lake per estendere il data warehouse è spesso associato al marketing omnicanale, a volte chiamato marketing multicanale. Il modo per pensare all'ecosistema dei dati nel marketing è che ogni canale può avere un database e anche ogni punto di contatto può raccogliere dati. Inoltre molti professionisti del marketing acquistano dati da terze parti.

Ad esempio, un professionista del marketing potrebbe voler acquistare dati con ulteriori informazioni demografiche e sulle preferenze diclienti e clienti potenziali e ciò gli consente di ottenere una visione completa di ogni cliente, il che contribuisce a creare campagne di marketing personalizzate e mirate.

Si tratta di un ecosistema di dati complesso e sta diventando sempre più grande in termini di volume e complessità. Il data lake viene spesso adottato per acquisire i dati provenienti da più canali e punti di contatto. Alcuni di loro in realtà sono dati in streaming.

Le aziende che offrono un'app per smartphone ai propri clienti possono ricevere in tempo reale o quasi, mentre i clienti utilizzano l'app. Molte volte, l'azienda non ha davvero bisogno di dati in tempo reale ma anche una o due ore dopo. Questo permetteal reparto marketing di svolgere un monitoraggio molto granulare del business e creare promozioni, incentivi, sconti e micro-campagne.

Data lake della supply chain digitale

La supply chain digitale è un ambiente di dati altrettanto vario e il data lake può aiutarti, soprattutto quando è su Hadoop. Hadoop è in gran parte un sistema basato su file poiché è stato progettato in origine per file di log molto grandi e numerosi che provengono da server Web. Nella supply chain sono spesso presenti una grande quantità di dati basati su file, come i dati basati su file e documenti provenienti da sistemi EDI, XML, i JSON provenienti dalla supply chain digitale. Si tratta di molte informazioni diverse.

Ci sono anche informazioni interne da considerare. I produttori spesso dispongono di dati provenienti dal reparto produttivo, dalla spedizione e dalla fatturazione, che sono estremamente importanti per la catena di fornitura. Il lake può aiutare i produttori a riunire questi dati e gestirli in un modo basato su file.

Data lake di Internet of Things

Internet of Thingsin alcuni casi crea nuove fonti di dati quotidianamente. Sempre più spesso, ci sono più sensori su più macchinari. Ad esempio, ogni veicolo merci per ferrovia o camion ha un enorme elenco di sensori in modo che l'azienda possa tracciare il veicolo attraverso lo spazio e il tempo, oltre a vedere come funziona. Funziona in modo sicuro? Funziona in modo ottimale rispetto al consumo di carburante? Da questi luoghi arrivano enormi quantità di informazioni e il data lake è molto diffuso perché fornisce un repository per tutti questi dati.

Un singolo data lake

Ora, questi sono esempi di usi abbastanza mirati del data lake in alcuni dipartimenti o programmi IT, ma un approccio diverso è quello per l'IT centralizzato di fornire un singolo grande data lake multitenant. Può essere utilizzato da molti reparti, business unit e programmi tecnologici diversi. Quando le persone si abituano al lake, scoprono come ottimizzarlo per usi e operazioni diversi, analisi dei dati e anche compliance.

Diversi tipi di piattaforme di data lake

Il data lake può essere utilizzato in molti modi e ha anche molte piattaforme sottostanti. Hadoop è la piattaforma più comune, ma nonè l'unica.

Hadoop

Hadoop è interessante. Ha dimostrato di avere una scalabilità lineare. Si tratta di un basso costo di scalabilità rispetto, ad esempio, a un database relazionale. Tuttavia, Hadoop non è solo uno storage economico. È anche una potente piattaforma di elaborazione. E per chi cerca di eseguire l'analisi algoritmica, Hadoop può essere molto utile.

Sistema di gestione di database relazionali

Il sistema di gestione del database relazionale può anche essere una piattaforma per il data lake, perché alcune persone hanno enormi quantità di dati che vogliono inserire nel lake, strutturato e anche relazionale. Quindi, se i tuoi dati sono intrinsecamente relazionali, un approccio DBMS per il data lake sarebbe perfetto. Inoltre, se si desidera eseguire funzionalità relazionali, come SQL o unioni di tabelle complesse, l'RDBMS è perfetto.

Storage basato sul cloud

Tuttavia, la tendenza è verso i sistemi basati sul cloud, in particolare verso lo storage basato sul cloud. Il grande vantaggio del cloud è la scalabilità elastica. Possono eseguire il marshalling delle risorse server e di altre risorse in base allo scale-up dei carichi di lavoro. Rispetto a molti sistemi on-premise, il cloud può essere a basso costo perché non esiste l'integrazione del sistema.

Se vuoi fare qualcosa on-premise, devi eseguire l'integrazione dei sistemi in più mesi, mentre per molti sistemi c'è un provider cloud che li ha già integrati. In pratica si acquista una licenza e si può essere operativi entro ore anziché mesi. Inoltre, l'approccio dell'area di memorizzazione degli oggetti nel cloud, citato in un post precedente sulle migliori prassi del data lake, presenta molti vantaggi.

E naturalmente, si può avere un mix ibrido di piattaforme con un data lake. Se hai familiarità con quello che chiamiamo il data warehouse logico, puoi anche averne uno dall'aspetto simile che pero è un data lake logico. Questo è il punto in cui i dati vengono distribuiti fisicamente su più piattaforme. E ci sono alcune sfide per questo, come la necessità di strumenti speciali validi con query federate o virtualizzazione dei dati per query analitiche di vasta portata.

Ma questa tecnologia è disponibile a livello di strumento e molte persone la stanno utilizzando.

Data lakehouse, il futuro del data lake?

Nel tentativo di ottenere più valore dai propri dati, le aziende cercano sempre di superare i propri confini. Grazie all'elaborazione basata sul cloud, ora si combinano le tecnologie dei data lake e i data warehouse in un'unica architettura denominata "data lakehouse". I vantaggi di un data lakehouse includono una migliore integrazione, meno spostamento dei dati, migliore governance dei dati e supporto per diverse finalità.

Creazione di un data lake

Il data lake è la tua risposta per organizzare tutti questi grandi volumi di dati diversi provenienti da fonti differenti. Se sei pronto per iniziare a usare un data lake, ti offriamo Oracle Free Tier.