Come integrare i dati da più origini

Michael Chen | Content Strategist | 4 gennaio 2024

Le fonti di dati sono ovunque nel mondo del business digitale: sui dispositivi Internet of Things (IoT), sulla base di utenti di un'app in un sistema ERP e nelle richieste di customer service nei software CRM. Con così tanti dati sempre in entrata, in che modo le organizzazioni estraggono le informazioni di cui hanno bisogno? Strumenti come le piattaforme di analytics possono ricavare insight, ma solo se i data set sono integrati per consentire di effettuare connessioni. In caso contrario, gli utenti vengono lasciati a gestire manualmente i fogli di calcolo, dedicando tempo e fatica e rischiando al contempo di essere guidati da dati vecchi, danneggiati o duplicati.

I progressi tecnici hanno facilitato il processo attraverso cui si combinano i dati, si archiviano e si rendono accessibili agli utenti business. Il primo passo: integrare dati provenienti da più fonti. È fondamentale per avere un'organizzazione data-driven e apre una serie di possibilità che coinvolgono analytics self-service e business intelligence. Permettere agli utenti di creare query autonomamente può portare a insight sorprendenti.

Per raggiungere questa fase, tuttavia, è necessaria una strategia di integrazione dei dati, un'infrastruttura in grado di supportare efficacemente i collegamenti tra più origini e un data lake o una data warehouse.

Cos'è l'integrazione dei dati?

Integrazione dei dati, blending dei dati e unione dei dati iniziano tutti allo stesso modo: combinando varie fonti di dati. Queste tecniche differiscono nel livello di standardizzazione nelle definizioni e nella nomenclatura e nel punto delle trasformazioni di processo in cui si verificano. Quando decidi quale metodo utilizzare, poni domande come: il set di dati estratti è vicino agli standard interni, o ha bisogno di molta trasformazione? L'origine produce periodicamente duplicati o altri problemi per cui è necessaria la pulizia dei dati?

Comprendendo la qualità delle tue origini dati, la tua organizzazione sarà in grado di avvicinarsi ai tuoi obiettivi di dati.

Differenze tra integrazione, unione e blending dei dati

Integrazione dei dati, unione dei dati e blending dei dati sono tre termini spesso utilizzati nel gergo IT moderno. Vengono spesso confusi perché le differenze tra di loro sono sottili. Alcuni fattori universali: che le trasformazioni dei dati avvengano prima o dopo il caricamento in un repository, spesso si tratta del passo più complesso e impegnativo del processo, quindi automatizza quanto possibile.

Ecco delle definizioni di base e le loro differenze.

  • Integrazione dei dati: il consolidamento sistemico e completo di più origini dati mediante un processo consolidato che pulisce e perfeziona i dati, spesso in un formato standardizzato. Una volta completata questa pulizia, i dati vengono caricati in un repository, ad esempio un data lake o una data warehouse. Le trasformazioni e l'integrazione sono spesso gestite da curatori di dati, data scientist o altro personale IT.
  • Blending dei dati: il processo di combinazione di più data set in un unico data set per l'analisi. Tuttavia, a differenza dell'integrazione dei dati, i dati blended spesso combinano dati nativi, ovvero dati che non sono stati trasformati o puliti, da più origini. Ad esempio, un team HR utilizzerà dati blended se combinano le metriche di assunzione interne del trimestre corrente con un set di dati open source del governo sulle tendenze delle assunzioni. A differenza dell'integrazione dei dati, in questo caso l'utente deve pulire e standardizzare i dati dopo che è stato effettuato il blending.
  • Unione ai dati: come il blending dei dati, l'unione dei dati implica la combinazione di più set di dati. Ciò che più la distingue dal blending dei dati è che l'unione dei dati richiede che i data set provengano dalla stessa origine o quantomeno che vi sia una certa sovrapposizione tra colonne e definizioni. Per espandere l'esempio HR sopra riportato, si parla di unione dei dati quando il professionista HR prende le metriche delle assunzioni nazionali di origine governativa dal trimestre attuale, quindi scarica anche i dati trimestrali di quattro anni fa per fare un confronto. Questi set di dati provengono dallo stesso sistema e utilizzano lo stesso formato, ma devono essere uniti in base a intervalli di dati specifici. Questi dati uniti possono quindi essere ulteriormente combinati in un set di dati HR interno, che richiede quindi pulizia e standardizzazione.

Differenze chiave

La tabella riportata di seguito analizza le differenze tra integrazione, blending e unione dei dati.

Integrazione dei dati Blending dei dati Unione dei dati
Combina più fonti?
Tipicamente viene gestito da IT o utente? IT Utente Utente
Pulisce i dati prima dell'output? No No
Richiede pulizia dopo l'output? No
Si consiglia di utilizzare la stessa origine? No No
Estrae/carica/trasforma o estrae/trasforma/carica? Estrae/trasforma/carica Estrae/trasforma/carica Estrae/trasforma/carica

Concetti chiave

  • Esamina le fonti di dati tenendo a mente i tuoi obiettivi. Anche se non puoi sempre controllare la qualità delle fonti in un mondo di big data, ci sono passi che puoi intraprendere per semplificare l'integrazione.
  • Automatizza il maggior numero possibile di processi. Quando i dati verranno estratti da fonti ad alta frequenza, gli strumenti e gli script offriranno un grande vantaggio all'integrazione della tua organizzazione.
  • Per decidere quale metodo di integrazione dei dati funziona meglio per la tua organizzazione, mappa tutte le variabili coinvolte: origini, hardware, volume.
  • Ridefinisci continuamente il flusso di lavoro e gli standard. Una corretta integrazione dei dati richiede un miglioramento continuo dei processi.

Definizione di integrazione dei dati da più origini

Gli strumenti si evolvono, le fonti di dati si espandono e le funzionalità migliorano. Ciò si aggiunge a un flusso costante di opportunità per perfezionare i flussi di lavoro di integrazione dei dati e introdurre processi più solidi ed efficienti.

Sebbene ogni organizzazione abbia le proprie esigenze specifiche, l'integrazione dei dati generalmente segue un processo standard.

  1. Viene identificata la necessità di dati combinati, da una richiesta dell'utente finale o da una decisione presa dall'organizzazione. Questo spesso include parametri come intervalli di date e altri fattori limitanti.
  2. Vengono individuate le fonti pertinenti, insieme ai dati specifici necessari da tali fonti.
  3. I dati vengono estratti dalle origini in formato nativo e combinati in un data set.

In questa fase, il set di dati combinato può essere reso disponibile per la pulizia e l'analisi manuale del richiedente oppure i dati possono essere normalizzati da un data scientist o da un gestore di dati prima di essere forniti all'azienda. Indipendentemente dal modo in cui arriva, i set di dati normalmente richiedono processi aggiuntivi per garantire una nomenclatura coerente tra le colonne, la rimozione di dati duplicati, la correzione di dati imprecisi o errati, la correzione di registri incompleti e altre attività.

Una volta completati questi task, i dati sono pronti per essere caricati nelle applicazioni di analytics, nei sistemi di business intelligence o anche semplicemente in Excel per consentire all'utente finale di analizzare e manipolare gli insight e i grafici.

Un obiettivo per i dipartimenti IT dovrebbe essere quello di massimizzare l'efficienza di questo processo. Ciò richiede una pianificazione per creare trasformazioni automatizzate che riducano al minimo il lavoro manuale. Il modo in cui le organizzazioni arrivano qui, tuttavia, dipende da molte variabili: da dove provengono le origini dati, se tali origini vengono controllate, a quali campi viene assegnata la priorità, se esistono regole di dati stabilite e quali tipi di flussi di lavoro sono in atto.

L'automazione del maggior numero possibile di processi di pulizia dei dati può essere la parte più importante quando si utilizzano più origini dati in quanto consente un ambiente self-service che mette i dati nelle mani degli utenti più velocemente.

L'importanza dell'integrazione dei dati da più origini dati

Se costruire un processo di integrazione dei dati sembra un grande sforzo, è perché lo è. Dalle fonti di controllo alla creazione e al perfezionamento di un flusso di lavoro di pulizia dei dati, per mettere in atto un processo di integrazione dei dati senza problemi serve cura e pianificazione. Tuttavia, il valore diventa presto evidente.

Nel business, il tempo è sempre stato denaro. Tuttavia, nell'era dei Big Data, in cui le informazioni in tempo reale arrivano da fornitori e clienti in tutto il mondo, l'importanza di quella semplice formula è cresciuta in modo esponenziale. Le circostanze cambiano rapidamente e gli alti e bassi del business possono spesso essere imprevedibili. Quando i dati si trovano in silos, le linee di business che cercano di analizzare nuove informazioni o di esplorare opportunità di innovazione spesso si sentono come se fossero diversi passi indietro. In verità, si sentono così perché lo sono. Quando le business unit devono fare affidamento su altri team per le estrazioni dei dati e i report di analytics, le cose rallentano.

Alla fine, le informazioni sono preziose solo quando scorrono senza problemi.

L'integrazione dei dati da più origini rimuove molti ostacoli manuali. A sua volta, apre la porta a una gamma più ampia di fonti di dati per scoprire insight nascosti e prendere decisioni realmente basate sui dati. Ciò aumenta sia le capacità che l'efficienza per i dipendenti, il che a sua volta guida l'innovazione e le opportunità per l'organizzazione. In definitiva, l'integrazione di più fonti di dati consente alle organizzazioni di trovare nuove idee e soluzioni, cambiare direzione rapidamente e stare al passo con la concorrenza.

Vantaggi e sfide dell'integrazione dei dati

Un'integrazione dei dati di successo mantiene le organizzazioni al passo con la concorrenza, sia ora che in futuro, man mano che le possibilità di dati si espandono. Per arrivarci, tuttavia, è necessaria una combinazione di configurazione tecnica e comprensione da un punto di vista organizzativo. Affrontando queste sfide, le organizzazioni devono cambiare il modo in cui le decisioni vengono prese nelle operations, nelle vendite, nel finance, nel manufacturing e in quasi tutti gli altri dipartimenti.

Ecco alcuni vantaggi e ostacoli che devono essere superati per un'integrazione dei dati di successo.

Vantaggi

  • Dati unificati. Riunendo i dati in un unico repository, il processo complessivo di acquisizione dei dati viene semplificato e accelerato. Invece di diversi gruppi che lavorano con fonti di dati eterogenee, avere un'unica visualizzazione unificata crea un migliore allineamento organizzativo riducendo al contempo le risorse coinvolte nell'approvvigionamento e nell'elaborazione dei dati.
  • Collaborazione migliorata. A causa del modo in cui i dati vengono tradizionalmente memorizzati, vari gruppi possono utilizzare versioni obsolete o leggermente diverse di un data set. L'uso di definizioni o nomenclature diverse può creare confusione o portare a conclusioni errate. Unire i dati consente a tutti i gruppi di utilizzare le stesse informazioni.
  • Operazioni ottimizzate. Quando la condivisione dei dati avviene solo con richieste e preparazione manuali, il lavoro rallenta. I team operativi trarranno vantaggio da processi semplificati, dati centralizzati e meno passaggi manuali.
  • Tempo risparmiato. Oltre a semplificare le operazioni, il consolidamento di più origini elimina la fase pratica del trasferimento manuale dei dati da un gruppo all'altro. I ritardi possono verificarsi quando gruppi adiacenti, ad esempio vendite e marketing, hanno esigenze di dati sovrapposte o quando i partecipanti a valle di un flusso di lavoro devono richiedere set di dati.
  • Riduzione degli errori manuali. La rimozione di passaggi manuali dai processi aumenta l'efficienza, ma riduce anche i rischi complessivi. Un minor numero di passi manuali equivale a un minor numero di opportunità per gli errori, ad esempio l'invio di un set di dati errato o di registri mancanti durante il copia e incolla.
  • Miglioramento degli analytics predittivi. Più fonti di dati sono disponibili per le piattaforme di analytics, meglio è. Il consolidamento delle origini dati amplia le possibilità di analisi, consentendo creatività e innovazione. Ciò crea il vantaggio immediato di un maggior numero di utenti che assumono il controllo dei business analytics e il vantaggio a lungo termine di creare una cultura basata sui dati.

Sfide

  • Compatibilità dei dati. I dati provenienti da fonti diverse utilizzeranno quasi certamente definizioni e nomenclature diverse. Il processo di pulizia è noto come trasformazione dei dati e, a seconda dello stato delle fonti originali, può essere scomodo e complesso a meno che non siano in atto processi sistemici.
  • Silos di dati. I gruppi, inclusi vendite, marketing, finance e HR, monitorano i dati per le proprie esigenze interne. Quando i dati vengono separati in silos in questo modo, i gruppi devono effettuare richieste manuali di accesso e, anche quando vengono ricevuti, la nomenclatura e le definizioni possono variare, creando ulteriori ostacoli alla compatibilità.
  • Qualità dei dati. I dati di alta qualità rendono possibile una cultura di insight accurati e basati sui dati. Per raggiungere questo obiettivo, le organizzazioni devono stabilire standard e processi per garantire la qualità dei dati. Precisione, completezza e cadenze di aggiornamento (se si utilizzano aggiornamenti periodici) devono essere tutte parte della discussione. Migliorare il processo decisionale tra i dipartimenti richiede una combinazione di infrastruttura IT, flussi di lavoro di gruppo e consenso individuale per soddisfare gli standard.
  • Sistemi legacy. I dati sono generati da una vasta gamma di sistemi, tra cui gli strumenti legacy. Per integrare queste origini in modo pulito in un repository consolidato bisogna valutare lo stato dell'output del sistema legacy, quindi capire come renderlo compatibile. Non saltare questo passaggio; questi sistemi più datati contengono spesso informazioni uniche sull'organizzazione.
  • Dati non ottimizzati. Per ottimizzazione dei dati si intende il processo attraverso cui si rendono le operazioni di analisi il più efficienti e convenienti possibile. I dati non ottimizzati arrivano in modo nativo dalle origini e dovranno essere propagati in valori e registri appropriati prima dell'uso. Uno strumento OLAP può automatizzare questo processo.

Lista di controllo preintegrazione

Il successo dell'integrazione dei dati richiede una buona preparazione in una serie di aree, tra cui supporto tecnico, obiettivi aziendali e cultura aziendale. Di seguito sono riportate le tre caselle più importanti da spuntare prima di avviare un'iniziativa di integrazione dati.

1. Ottenere l'adesione degli stakeholder

Per avere successo, una strategia di integrazione dei dati ha bisogno di tecnologia che la supporti, di team per gestire i dati di origine e l'inserimento dei dati, di utenti aziendali che scarichino e utilizzino in modo efficace i dati consolidati e di una leadership esecutiva che approvi i budget per l'iniziativa. Ognuno di questi stakeholder è fondamentale. Senza l'adesione a livello di organizzazione, le strategie deraglieranno o, a volte, appassiranno.

2. Allinea progetto e obiettivi aziendali

Le organizzazioni devono determinare il "perché" dei propri progetti di integrazione dei dati. È necessario accelerare i processi, migliorare gli analytics dei dati, ottenere più insight guidati dai dati, migliorare la precisione o una combinazione di questi tre? È specifico di un dipartimento o di un'iniziativa più ampia?

Identificando obiettivi e parametri specifici, le organizzazioni possono sviluppare un approccio più mirato ed efficace per raggiungere i propri obiettivi di dati.

3. Analizza i tuoi processi dati esistenti

Prima di avviare un progetto di integrazione dei dati, è importante comprendere i sistemi e i dati esistenti con cui stai lavorando. Nel migliore dei casi, i dati possono essere facilmente esportati e vi è già un accordo e un allineamento tra i dipartimenti per quanto riguarda i formati e gli standard. Cosa succede se obiettivi, processi o formati di dati nativi variano in modo significativo tra i vari dipartimenti? È qui che entra in gioco l'executive sponsorship.

5 passaggi per integrare i dati da più origini

Il lavoro di integrazione dei dati da più fonti prevede diversi passaggi. Durante tutto il processo, tuttavia, è importante tenere a mente la qualità e l'integrità dei dati, insieme alle pertinenti normative sulla sicurezza e sulla privacy dei dati. Inoltre, una volta integrati i dati, assicurati che vengano effettuati un monitoraggio e manutenzione periodici per garantire la qualità e l'integrità dei dati nel tempo.

1. Identifica le origini dati da integrare

Le origini dati sono disponibili in molti formati diversi e risiedono in molte posizioni. Ogni organizzazione avrà una combinazione unica di origini dati, come le seguenti:

  • Database relazionali: i processi di integrazione dei dati possono connettersi direttamente ai database relazionali, che dispongono di impostazioni standard di riga/colonna in formato tabulare.
  • File di testo: la maggior parte dei database esporta i data set in file di testo, che vengono formattati come tabelle bidimensionali che forniscono contesto standalone senza alcun riferimento necessario ad altre tabelle. Fra i formati di esportazione più diffusi ci sono il formato CSV e il formato delimitato, e sono generalmente facili da trasformare in base alle esigenze.
  • XML e JSON: XML e JSON sono standard comuni per la trasmissione di dati moderna, in particolare per le applicazioni web e basate sul Web. In termini tecnici, JSON è un formato di dati, mentre XML è un linguaggio. Queste differenze presuppongono le proprie considerazioni specifiche come il modo in cui è strutturato XML, mentre JSON analizza i dati più velocemente. Ai fini dell'integrazione dei dati, la cosa più importante da sapere è che probabilmente incontrerai entrambi se stai acquisendo dati da siti web o applicazioni basate sul Web.
  • API: le application programming interface (API) connettono sistemi diversi e recuperano i dati da più origini. Le API consentono l'integrazione dei dati in tempo reale e possono essere personalizzate per soddisfare requisiti di integrazione specializzati.
  • Origini dati basate su cloud: alcuni data set sono apertamente disponibili e aggiornati tramite il cloud. Questi tipi di metriche provengono spesso da fonti governative, educative o di ricerca, dove i dati sono resi disponibili affinché i ricercatori li esaminare ulteriormente a valle.
  • Dispositivi Internet of Things (IoT): i dispositivi IoT raccolgono costantemente informazioni, a volte migliaia di datapoint al giorno. Esempi di dispositivi IoT includono dispositivi medici che trasmettono continuamente i dati dei pazienti, elettrodomestici intelligenti nella tua casa e dispositivi industriali IoT (IioT) che controllano fabbriche e città intelligenti. I dati dei dispositivi IoT vengono spesso caricati nel cloud per essere utilizzati da altri sistemi.

Indipendentemente dal formato e da altre variabili, la cosa più importante è identificare e selezionare le fonti di dati che contribuiscono agli obiettivi aziendali, quindi esaminare il modo migliore per integrarli.

2. Prepara dati per integrazione

Dopo aver identificato le origini dati, bisogna vedere come vengono formattati e definiti i relativi set di dati. Sono due gli importanti passi di preparazione.

  • Pulizia dei dati: i data set possono contenere registri incompleti o duplicati, sezioni danneggiate o altri problemi. La pulizia dei dati è il processo attraverso cui si puliscono i set di dati per ottenere un set completo di registri lavorabili.
  • Standardizzazione: la pulizia dei dati rimuove i registri problematici, ma non risolve il problema della standardizzazione. Quando vengono integrati i dati, il processo risulta più fluido, e quando le regole standard, tra cui la formattazione della data, la tassonomia e i campi di metadati, vengono definite e applicate, si ottengono risultati migliori. Prima di procedere con l'integrazione, fai in modo che i registri siano il più possibile conformi agli standard. Ciò ridurrà al minimo il lavoro a valle aumentando al contempo la tempestività e l'accuratezza.
  • Tecniche di trasformazione: puoi utilizzare una vasta gamma di tecniche e pratiche per la trasformazione dei dati. Fra queste ci sono il livellamento dei dati, riducendo il rumore all'interno di un set di dati seguendo degli algoritmi; la normalizzazione dei dati, in cui si ridimensionano all'interno di un intervallo praticabile; la generalizzazione dei dati, creano una gerarchia tra i campi; e la manipolazione dei dati, identificando i pattern per creare formati realizzabili.

Ciò che funziona meglio dipende dallo stato dei singoli set di dati e dagli obiettivi organizzativi. Ma una verità universale è che la pulizia e la standardizzazione funzionano meglio quando i processi sono automatizzati. Utilizzando gli strumenti per aiutare nella preparazione dei dati, l'intero processo può non includere alcun intervento manuale. Ora, il personale IT può concentrarsi sugli eventi segnalati piuttosto che sugli sforzi manuali per gestire ogni data set per come è. Gli strumenti low-code e no-code possono favorire una trasformazione semplificata, mentre script e codifica personalizzati possono offrire maggiore flessibilità al processo.

3. Scegli un metodo di integrazione dei dati

Il tuo metodo di integrazione svolgerà un ruolo importante nel definire la struttura IT complessiva per i dati. Per questo motivo è fondamentale allineare le risorse e gli obiettivi aziendali al metodo scelto, anche se si desidera creare un sistema con integrazione continua o aggiornamenti periodici. Di seguito sono riportati alcuni dei metodi di integrazione dei dati più comuni.

  • Manuale: l'integrazione manuale dei dati non implica che qualcuno faccia fisicamente clic su ogni campo di dati. Tuttavia, richiede che qualcuno scriva codice per gestire ogni fase del processo. Sebbene sia laborioso e dispendioso in termini di tempo, ci sono alcune situazioni in cui l'integrazione manuale è l'opzione più praticabile a causa della qualità delle fonti o delle realtà delle risorse organizzative.
  • Extract/transform/load (ETL): i processi ETL gestiscono la trasformazione prima del caricamento dei dati in un repository. L'ETL è più efficace quando sono in vigore standard di trasformazione sistemica ed è in grado di elaborare prima di inserire set di dati in un data lake o in un data warehouse.
  • Extract/load/transform (ELT): i processi ELT gestiscono la trasformazione dei dati dopo il caricamento in un repository. Ecco perché i data set che utilizzano l'ELT sono spesso nei loro formati nativi e non standardizzati. L'ELT viene utilizzato quando la trasformazione sistemica non è disponibile, ad esempio quando un utente trova una nuova fonte.
  • Change data capture (CDC): il CDC è un processo che riduce l'uso delle risorse mantenendo aggiornati i data set. Il CDC include le modifiche apportate a un record e aggiorna quasi in tempo reale anziché aggiornare l'intero set di dati a intervalli periodici. Poiché gli aggiornamenti vengono effettuati singolarmente e in piccoli e rapidi burst, il CDC non influisce sul tempo di attività del database né porta a picchi di utilizzo delle risorse.
  • Replica dei dati: la replica dei dati mantiene una versione originale dei dati all'origine e crea una copia (replica) da utilizzare per i gruppi. Questa copia può essere solo una frazione del registro, ad esempio determinate colonne o un altro sottoinsieme utilizzato per la manipolazione. La replica può bloccare le risorse se è necessario conservare troppe versioni a lungo termine.
  • Virtualizzazione dei dati: con la virtualizzazione dei dati, tutti i data set rimangono nei database originali. Trasformazione e manipolazione si verificano in un livello virtuale utilizzando la federazione per puntare a singoli registri senza effettivamente estrarli in un nuovo file.
  • Stream Data Integration (SDI): la SDI funziona come una versione in tempo reale dell'elaborazione ELT. I flussi di dati vengono inviati dalle origini e trasformati in tempo reale prima di essere inviati a un repository. Ciò offre due grandi vantaggi. In primo luogo, aggiornando continuamente i record, i set di dati vengono sempre aggiornati. In secondo luogo, ciò elimina la necessità di aggiornare i set di dati su larga scala, stabilizzando l'uso delle risorse. Tuttavia, l'SDI crea anche una sfida infrastrutturale per supportare funzionalmente il processo e qualificare i dati man mano che vengono inseriti.

4. Implementa il piano di integrazione

L'implementazione di un piano di integrazione dei dati ben sviluppato può essere un processo complicato e complesso, ma con un approccio metodico, l'investimento darà frutti a lungo termine mentre prepara la tua azienda per un futuro scalabile.

Il processo inizia identificando gli elementi dati e le origini dati, quindi mappando le relazioni tra di essi. Cosa si sovrappone in modo netto? In cosa sono diverse le colonne e le definizioni? E cosa bisogna fare per allinearle?

Da qui, creerai un modello per la trasformazione dei dati. Potresti utilizzare script personalizzati, strumenti di settore predefiniti o una combinazione di entrambi, a seconda delle esigenze e delle risorse disponibili. L'obiettivo è trasformare e unire i dati in un formato comune e risolvere eventuali conflitti tra le origini dati, preferibilmente in modo sistemico per rendere il processo ripetibile e limitare i dati di lavoro di cui devono occuparsi i consumatori.

Durante questo processo, sono disponibili una serie di strumenti e tecnologie di integrazione per i curatori e gli ingegneri dei dati. Fra questi ci sono strumenti ETL che funzionano in tre fasi principali.

  • Estrai dati da origini dati, ad esempio applicazioni per smartphone, database, applicazioni Web e applicazioni software.
  • Trasforma i dati dalle origini dati per soddisfare gli standard interni per definizioni, nomenclatura e tassonomia.
  • Carica i dati trasformati in un data warehouse, data lake o altro repository accessibile da strumenti come business intelligence o analytics self-service.

Una gamma di strumenti ETL è disponibile in vari formati e piattaforme. Oltre alle tradizionali applicazioni software ETL, gli strumenti ETL basati sul cloud consentono un accesso flessibile perché questi strumenti possono connettere più facilmente fonti e repository eterogenei. Supponendo di avere le giuste competenze IT, gli strumenti ETL open source possono fornire funzionalità solide per un costo iniziale ridotto. Tuttavia, potrebbero non avere lo stesso livello di sviluppo delle funzionalità, sicurezza o garanzia della qualità dei prodotti commerciali e ciò può richiedere un ulteriore investimento di risorse lungo il percorso. Sono disponibili strumenti ETL personalizzati, anche se spesso richiedono un investimento iniziale elevato.

Come fai a sapere quale strumento ETL è adatto alla tua organizzazione? I fattori da considerare includono i tipi di connettori supportati, il livello di personalizzazione disponibile, i requisiti in termini di performance e risorse e i costi completi, comprese le competenze e l'infrastruttura di supporto. Ma soprattutto, gli strumenti ETL dovrebbero essere valutati per le funzionalità di automazione, perché l'automazione è una parte fondamentale delle trasformazioni dei dati sistemici che alla fine portano agli analytics dei dati self-service.

5. Garantisci la qualità dei dati

La qualità di un set di dati dipende dalla sua completezza e da accuratezza, tempestività e conformità agli standard. L'importanza della qualità dei dati nei dati integrati non può essere sottolineata abbastanza. Un set di dati di qualità elevata richiede molto meno sforzi per diventare pronto per l'integrazione. Sebbene ciò sia importante dal punto di vista delle risorse, anche la qualità dei dati influisce in modo significativo sull'output. Ad esempio, se un'organizzazione utilizza quattro cifre significative nei calcoli, ma un'origine esterna fornisce dati con solo due cifre significative, tali dati non soddisfano il livello di qualità previsto. Se utilizzata, l'analisi risultante potrebbe contenere insight errati.

Pertanto, i dati di alta qualità sono assolutamente fondamentali nei dati integrati per ridurre al minimo gli sforzi di trasformazione/pulizia e garantire l'accuratezza dell'output.

Come misurare e mantenere la qualità dei dati: diversi metodi sono utili per garantire un'elevata qualità dei dati.

  • Profilazione dei dati: analisi di alto livello dei dati di origine per esaminare qualità, completezza, accuratezza e altri elementi per creare riepiloghi.
  • Standardizzazione dei dati: processo di creazione di standard per formato, definizioni, nomenclatura e altri elementi per garantire la piena compatibilità dei dati con altri set di dati all'interno di un'organizzazione. Se i dati non rispettano gli standard, per farlo dovranno essere trasformati.
  • Pulizia dei dati: pulizia di un data set per correggere e rimuovere voci duplicate, vuote, imprecise o danneggiate, in modo che i data set siano pronti per l'elaborazione.
  • Abbinamento dei dati: prevede l'abbinamento dei record tra set di dati diversi per verificare che riflettano lo stesso oggetto e, al contempo, contrassegnino i record duplicati per la rimozione.
  • Convalida dei dati: verifica l'accuratezza e la qualità dei dati controllando che funzionino all'interno di determinate regole attraverso una serie di controlli e parametri.
  • Governance dei dati: processo di monitoraggio dei dati per garantire che lo storage, la sicurezza, l'acquisizione e altre attività soddisfino gli standard e i principi stabiliti dall'organizzazione e le eventuali normative applicabili.
  • Monitoraggio continuo: l'uso di vari strumenti per controllare continuamente lo stato dei set di dati in base agli standard interni e ai criteri di governance.

Integrazione semplificata dei dati multi-origine con Oracle Analytics

Una volta consolidati i dati in un repository, la tua organizzazione è pronta per il passo successivo: gli analytics self-service. Oracle Analytics offre analytics self-service completi in un'interfaccia utente intuitiva creata per tutti, dagli utenti aziendali ai data scientist. Disponibile nel cloud, on-premise o come implementazione ibrida, Oracle Analytics utilizza il machine learning e l'intelligenza artificiale per scoprire insight nascosti e generare visualizzazioni istantanee. Prova subito Oracle Analytics Cloud gratuitamente con Oracle Cloud Free Tier.

Il principale vantaggio dell'integrazione dei dati provenienti da più fonti, come i dati demografici dei clienti, i dati di vendita e le tendenze del mercato, è che i dipendenti acquisiscono una comprensione più completa di qualsiasi problema o opportunità aziendale. Se fatta correttamente, scoprirai insight e pattern preziosi che potrebbero non essere mai emersi durante l'analisi di ogni fonte di dati in isolamento. Il potenziale risultato? Decisioni più informate, strategie più efficaci, un migliore controllo della qualità dei dati, una maggiore efficienza operativa e un vantaggio competitivo nello scenario aziendale odierno basato sui dati.

Dati diversi sono il modo in cui le aziende addestrano l'AI a lavorare per i loro business. Una volta che i CIO hanno padroneggiato l'integrazione dei dati, bisogna lanciare un programma AI che sfrutti tale impegno.

Domande frequenti sull'integrazione dei dati multiorigine

Quali sono i fattori da considerare quando si scelgono le origini dati per l'integrazione?

I due fattori più importanti coinvolti nella pianificazione dell'integrazione dei dati sono: innanzitutto, sapere quali risorse hai e avrai a tua disposizione e, in secondo luogo, sapere quali sono i tuoi obiettivi aziendali. Da lì, puoi identificare le fonti di dati che manderanno avanti la tua strategia e determinare se è realistico accedervi.

Quali sono alcune best practice per integrare i dati provenienti da più fonti?

Sebbene molte strategie per l'integrazione dei dati si basino su esigenze organizzative individuali, alcune best practice di ampio respiro si applicano a tutti i livelli, come le seguenti:

  • Comprendi lo stato delle origini dati per quanto riguarda la qualità dei dati
  • Pianifica in base ai tuoi obiettivi aziendali
  • Scopri quali sono le tue risorse e i tuoi budget IT
  • Dai la priorità ai dipartimenti che possono trarre maggior vantaggio dall'integrazione dei dati
  • Considera un'espansione e una scalabilità a lungo termine

Quali sono alcuni esempi di casi d'uso per l'integrazione dei dati multi-origine?

Ecco due casi d'uso reali per l'integrazione dei dati multi-origine. Innanzitutto, pensa a un'applicazione per smartphone che trasmette costantemente i dati di utilizzo a un cloud. Questo viene utilizzato come riferimento incrociato con due set di dati correlati, una campagna di e-mail marketing e dati di vendita. Una visione unificata può rilevare insight più approfonditi sul modo in cui utilizzo, marketing e acquisti funzionano insieme. In secondo luogo, pensa a un dispositivo medico IoT che trasmette i record all'account di un paziente. Questo è messo a disposizione di un medico immediatamente, che ha anche accesso ai registri dei pazienti per monitorare per miglioramenti o modifiche.

Perché dobbiamo integrare più fonti di dati?

Con l'aumento del volume e della varietà delle fonti di dati nel tempo, il consolidamento dei set di dati si è evoluto dall'essere qualcosa "bella da avere" a una necessità nel business. In questi giorni, è raro che un'operazione non tragga vantaggio dall'integrazione dei dati. Il trucco, tuttavia, è eseguire una strategia appropriata per l'organizzazione.

Come si chiama il processo attraverso cui si combinano i dati provenienti da fonti diverse?

Se il processo di combinazione delle origini dati si verifica con i passi di preparazione dei dati sistemici, allora è noto come integrazione dei dati. Se le origini dati vengono messe insieme senza questa trasformazione/pulizia, passaggi che vengono effettuati dopo il fatto, allora si parla di unione o blending dei dati.