Descrizione di ETL La tua guida agli aspetti fondamentali dell'integrazione dei dati

18 giugno 2021

In questo articolo

Descrizione di ETL
Le tre fasi distinte di ETL
ELT o ETL: qual è la differenza?
ETL e data warehouse aziendali
ETL e data mart
ETL o ELT e data lake
Casi d'uso ETL
Prodotti e soluzioni ETL

Descrizione di ETL

Il processo ETL (Extract Transform Load; estrazione trasformazione caricamento) consente di raccogliere dati da più origini e quindi riunirli per supportare l'individuazione, la generazione di report, l'analisi e il processo decisionale.

Le origini dati possono essere molto diverse in tipo, formato, volume e affidabilità, quindi i dati devono essere elaborati in modo da essere utili durante l'aggregazione. I data store di destinazione possono essere database, data warehouse o data lake, a seconda degli obiettivi e dell'implementazione tecnica.

Scopri di più su su Oracle Data Integrator

Le tre fasi distinte di ETL

Estrai
Durante l'estrazione, ETL identifica i dati e li copia dalle relative origini, in modo da poter trasportare i dati nel datastore di destinazione. I dati possono provenire da fonti strutturate e non strutturate, tra cui documenti, e-mail, applicazioni aziendali, database, apparecchiature, sensori, terze parti e altro ancora.

Trasforma
Poiché i dati estratti sono di tipo RAW nel formato originale, è necessario mapparli e trasformarli per prepararli al datastore finale. Nel processo di trasformazione, ETL convalida, autentica, deduplica e/o aggrega i dati in modalità che rendono i dati risultanti affidabili e verificabili.

Carica
ETL sposta i dati trasformati nel datastore di destinazione. Questo passo può comportare il caricamento iniziale di tutti i dati di origine oppure il caricamento delle modifiche incrementali nei dati di origine. È possibile caricare i dati in tempo reale o in batch programmati.

ELT o ETL: qual è la differenza?

La fase di trasformazione è di gran lunga la più complessa del processo ETL. ETL e ELT, pertanto, differiscono su due punti principali:

Quando avviene la trasformazione
Il luogo della trasformazione

In un data warehouse tradizionale, i dati vengono prima estratti da "sistemi di origine" (sistemi ERP, sistemi CRM e così via). Gli strumenti OLAP e le query SQL dipendono dalla standardizzazione delle dimensioni dei set di dati per ottenere i risultati aggregati. Ciò significa che i dati devono subire una serie di trasformazioni.

Tradizionalmente, queste trasformazioni sono state eseguite prima del caricamento dei dati nel sistema di destinazione, in genere un data warehouse relazionale.

Tuttavia, man mano che le tecnologie di storage e elaborazione dei dati alla base del data warehousing si evolvono, è diventato possibile eseguire trasformazioni all'interno del sistema di destinazione. Sia i processi ETL che i processi ELT richiedono aree di staging. In ETL, queste aree si trovano nello strumento, siano esse proprietarie o personalizzate. Si trovano tra il sistema di origine (ad esempio, un sistema CRM) e il sistema di destinazione (data warehouse).

Al contrario, con gli ELT, l'area di staging si trova nel data warehouse e il motore di database che alimenta DBMS esegue le trasformazioni,al contrario di uno strumento ETL. Pertanto, una delle conseguenze immediate degli ELT è che si perdono le funzioni di preparazione e pulizia dei dati che gli strumenti ETL forniscono per aiutare nel processo di trasformazione dei dati.

ETL e data warehouse aziendali

Tradizionalmente, gli strumenti per ETL sono stati utilizzati principalmente per fornire dati ai data warehouse aziendali che supportano le applicazioni di business intelligence (BI). Tali data warehouse sono progettati per rappresentare un'origine affidabile di informazioni su tutto ciò che accade in un'azienda in tutte le sue attività. I dati in questi warehouse sono accuratamente strutturati con schemi, metadati e regole rigorosi che regolano la convalida dei dati.

Gli strumenti ETL per i data warehouse aziendali devono soddisfare i requisiti di integrazione dei dati, ad esempio carichi in batch ad alte prestazioni e con alti volumi; processi di integrazione basati sugli eventi e basati sugli afflussi; trasformazioni programmabili e orchestrazioni in modo da poter gestire le trasformazioni e i flussi di lavoro più complessi e avere connettori per le origini dati più diverse.

Dopo aver caricato i dati, sono disponibili più strategie per mantenerli sincronizzati tra i datastore di origine e di destinazione. Puoi ricaricare il set di dati completo periodicamente, pianificare aggiornamenti periodici degli ultimi dati o eseguire il commit per mantenere la sincronizzazione completa tra l'origine e il data warehouse di destinazione. Tale integrazione in tempo reale viene definita acquisizione dei dati di modifica (CDC, Change Data Capture). Per questo processo avanzato, gli strumenti ETL devono comprendere la semantica delle transazioni dei database di origine e trasmettere correttamente queste transazioni al data warehouse di destinazione.

Ulteriori informazioni sulla replica dei dati in tempo reale

ETL e data mart

I data mart sono data store di destinazione più piccoli e mirati rispetto ai data warehouse aziendali. Possono, ad esempio, concentrarsi sulle informazioni relative a un singolo reparto o a una singola linea di prodotti. Per questo motivo, gli utenti degli strumenti ETL per i data mart sono spesso specialisti LOB (Line-of-Business), data analyst e/o data scientist.

Gli strumenti ETL per i data mart devono essere utilizzabili dal personale aziendale e dai data manager, piuttosto che dai programmatori e dal personale IT. Pertanto, questi strumenti dovrebbero avere un flusso di lavoro visivo per facilitare l'impostazione delle pipeline ETL.

Informazioni sulla progettazione del flusso di dati senza codice

ETL o ELT e data lake

I data lake seguono un pattern diverso rispetto ai data warehouse e ai data mart. I data lake sono generalmente memorizzati nello storage degli oggetti o nei file system distribuiti in Hadoop (HDFS) e possono quindi memorizzare dati meno strutturati senza schema e supportano più strumenti per eseguire query su tali dati non strutturati.

Un pattern aggiuntivo che consente di estrarre, caricare e trasformare (ELT), in cui i dati vengono memorizzati prima "come sono" e verranno trasformati, analizzati ed elaborati dopo l'acquisizione dei dati nel data lake. Questo modello offre diversi vantaggi.

Tutti i dati vengono registrati; nessun segnale viene perso a causa dell'aggregazione o del filtro.
I dati possono essere ingeriti molto velocemente, un aspetto utile per lo streaming di Internet of Things (IoT), l'analisi dei log, le metriche dei siti Web e così via.
Consente di individuare le tendenze non previste al momento dell'acquisizione.
Consente la distribuzione di nuove tecniche di intelligenza artificiale (AI) che eccellono nel rilevamento dei pattern in set di dati grandi e non strutturati.

Gli strumenti ETL per i data lake sono strumenti di integrazione visiva dei dati, perché sono efficaci per i data scientist e gli ingegneri. Altri strumenti spesso utilizzati nell'architettura data lake includono:

Streaming cloud Servizi che possono includere flussi di dati in tempo reale di grandi dimensioni in data lake relativi a messaggistica, log delle applicazioni, telemetria operativa, monitoraggio dei dati clickstream Web, elaborazione degli eventi e analisi di sicurezza. La compatibilità con Kafka garantisce che questi servizi possano recuperare i dati da fonti di dati quasi infinite.
Servizi cloud basati su Spark in grado di eseguire rapidamente task di elaborazione e trasformazione dei dati su set di dati di grandi dimensioni. I servizi Spark possono caricare i set di dati dallo storage degli oggetti o HDFS, elaborarli e trasformarli in memoria su cluster scalabili di istanze di computazione e scrivere l'output sul data lake o su data mart e/o data warehouse.

Casi d'uso ETL

Il processo ETL è fondamentale per molti settori a causa della sua capacità di includere dati in modo rapido e affidabile nei data lake in data science e analisi dei dati, creando al contempo modelli di alta qualità. Le soluzioni ETL possono anche caricare e trasformare dati transazionali su larga scala per creare una vista organizzata da grandi volumi di dati. Ciò consente alle aziende di visualizzare e prevedere gli andamenti del settore. Diversi settori si affidano a ETL per offrire insight utili, un processo decisionale rapido e una maggiore efficienza.

Servizi finanziari
Gli istituti di servizi finanziari raccolgono grandi quantità di dati strutturati e non strutturati per analizzare in modo chiaro i comportamenti dei consumatori. Questi insight possono analizzare i rischi, ottimizzare i servizi finanziari delle banche, migliorare le piattaforme online e persino fornire ATM con contanti.

Petrolio e gas
I settori petrolifero e del gas utilizzano le soluzioni ETL per generare previsioni sull'uso, lo storage e le tendenze in aree geografiche specifiche. ETL lavora per raccogliere il maggior numero possibile di informazioni da tutti i sensori di un sito di estrazione ed elaborare tali informazioni per renderle di facile lettura.

Settore automobilistico
Le soluzioni ETL consentono a concessionarie e produttori di comprendere i modelli di vendita, calibrare le proprie campagne di marketing, rifornire il magazzino e monitorare i lead dei clienti.

Telecomunicazioni
Grazie al volume e alla varietà senza precedenti di dati oggi prodotti, i provider di telecomunicazioni si affidano alle soluzioni ETL per gestire e comprendere meglio tali dati. Una volta elaborati e analizzati questi dati, le aziende possono utilizzarli per migliorare la pubblicità, i social media, il SEO, la soddisfazione dei clienti, la redditività e molto altro ancora.

Servizi sanitari
Grazie alla necessità di ridurre i costi e, al contempo, migliorare le cure, il settore sanitario utilizza soluzioni ETL per gestire i record dei pazienti, raccogliere informazioni sull'assicurazione e soddisfare requisiti normativi in continua evoluzione.

Life sciences
I laboratori clinici si basano sulle soluzioni ETL e sull'intelligenza artificiale (AI) per elaborare vari tipi di dati prodotti dagli istituti di ricerca. Per collaborare allo sviluppo del vaccino, ad esempio, è necessario raccogliere, elaborare e analizzare grandi quantità di dati.

Settore pubblico
Con le funzionalità di Internet of Things (IoT) che emergono così rapidamente, le città intelligenti utilizzano ETL e la potenza dell'AI per ottimizzare il traffico, monitorare la qualità dell'acqua, migliorare i parcheggi e molto altro ancora.

Soluzioni e prodotti ETL

Suite SOA (Service Oriented Architecture)
In che modo puoi ridurre la complessità dell'integrazione delle applicazioni? Grazie alle funzionalità di integrazione semplificate cloud, mobile, on premise e IoT, tutto all'interno di un'unica piattaforma, questa soluzione può garantire tempi di integrazione e maggiore produttività, oltre a ridurre il Total Cost of Ownership (TCO). Molte applicazioni aziendali, tra cui Oracle E-Business Suite, utilizzano questo prodotto in modo intensivo per orchestrare i flussi di dati.

GoldenGate
La trasformazione digitale richiede spesso lo spostamento dei dati da dove vengono acquisiti a dove sono necessari e l'obiettivo di GoldenGate è semplificare questo processo. Oracle GoldenGate è una soluzione di replica dei dati ad alta velocità per l'integrazione in tempo reale tra database eterogenei posizionati on premise, nel cloud o in un database autonomo. GoldenGate migliora la disponibilità dei dati senza influire sulle prestazioni del sistema, fornendo accesso ai dati in tempo reale e report operativi.

Soluzione di streaming del cloud
Il nostro servizio di streaming nel cloud offre una soluzione completamente gestita, scalabile e duratura per l'inclusione e il consumo in tempo reale di flussi di dati ad alto volume. Usa questo servizio per la messaggistica, i log dell'applicazione, la telemetria operativa, i dati clickstream Web o qualsiasi altra istanza in cui i dati vengono prodotti ed elaborati in maniera continua e sequenziale in un modello di messaggistica di pubblicazione/sottoscrizione. È completamente compatibile con Spark e Kafka.

Prova Oracle Cloud Free Tier