Michael Chen | Content Strategist | 4 gennaio 2024
Le fonti di dati sono ovunque nel mondo del business digitale: sui dispositivi Internet of Things (IoT), sulla base di utenti di un'app in un sistema ERP e nelle richieste di customer service nei software CRM. Con così tanti dati sempre in entrata, in che modo le organizzazioni estraggono le informazioni di cui hanno bisogno? Strumenti come le piattaforme di analytics possono ricavare insight, ma solo se i data set sono integrati per consentire di effettuare connessioni. In caso contrario, gli utenti vengono lasciati a gestire manualmente i fogli di calcolo, dedicando tempo e fatica e rischiando al contempo di essere guidati da dati vecchi, danneggiati o duplicati.
I progressi tecnici hanno facilitato il processo attraverso cui si combinano i dati, si archiviano e si rendono accessibili agli utenti business. Il primo passo: integrare dati provenienti da più fonti. È fondamentale per avere un'organizzazione data-driven e apre una serie di possibilità che coinvolgono analytics self-service e business intelligence. Permettere agli utenti di creare query autonomamente può portare a insight sorprendenti.
Per raggiungere questa fase, tuttavia, è necessaria una strategia di integrazione dei dati, un'infrastruttura in grado di supportare efficacemente i collegamenti tra più origini e un data lake o una data warehouse.
Integrazione dei dati, blending dei dati e unione dei dati iniziano tutti allo stesso modo: combinando varie fonti di dati. Queste tecniche differiscono nel livello di standardizzazione nelle definizioni e nella nomenclatura e nel punto delle trasformazioni di processo in cui si verificano. Quando decidi quale metodo utilizzare, poni domande come: il set di dati estratti è vicino agli standard interni, o ha bisogno di molta trasformazione? L'origine produce periodicamente duplicati o altri problemi per cui è necessaria la pulizia dei dati?
Comprendendo la qualità delle tue origini dati, la tua organizzazione sarà in grado di avvicinarsi ai tuoi obiettivi di dati.
Integrazione dei dati, unione dei dati e blending dei dati sono tre termini spesso utilizzati nel gergo IT moderno. Vengono spesso confusi perché le differenze tra di loro sono sottili. Alcuni fattori universali: che le trasformazioni dei dati avvengano prima o dopo il caricamento in un repository, spesso si tratta del passo più complesso e impegnativo del processo, quindi automatizza quanto possibile.
Ecco delle definizioni di base e le loro differenze.
La tabella riportata di seguito analizza le differenze tra integrazione, blending e unione dei dati.
Integrazione dei dati | Blending dei dati | Unione dei dati | |
---|---|---|---|
Combina più fonti? | Sì | Sì | Sì |
Tipicamente viene gestito da IT o utente? | IT | Utente | Utente |
Pulisce i dati prima dell'output? | Sì | No | No |
Richiede pulizia dopo l'output? | No | Sì | Sì |
Si consiglia di utilizzare la stessa origine? | No | No | Sì |
Estrae/carica/trasforma o estrae/trasforma/carica? | Estrae/trasforma/carica | Estrae/trasforma/carica | Estrae/trasforma/carica |
Concetti chiave
Gli strumenti si evolvono, le fonti di dati si espandono e le funzionalità migliorano. Ciò si aggiunge a un flusso costante di opportunità per perfezionare i flussi di lavoro di integrazione dei dati e introdurre processi più solidi ed efficienti.
Sebbene ogni organizzazione abbia le proprie esigenze specifiche, l'integrazione dei dati generalmente segue un processo standard.
In questa fase, il set di dati combinato può essere reso disponibile per la pulizia e l'analisi manuale del richiedente oppure i dati possono essere normalizzati da un data scientist o da un gestore di dati prima di essere forniti all'azienda. Indipendentemente dal modo in cui arriva, i set di dati normalmente richiedono processi aggiuntivi per garantire una nomenclatura coerente tra le colonne, la rimozione di dati duplicati, la correzione di dati imprecisi o errati, la correzione di registri incompleti e altre attività.
Una volta completati questi task, i dati sono pronti per essere caricati nelle applicazioni di analytics, nei sistemi di business intelligence o anche semplicemente in Excel per consentire all'utente finale di analizzare e manipolare gli insight e i grafici.
Un obiettivo per i dipartimenti IT dovrebbe essere quello di massimizzare l'efficienza di questo processo. Ciò richiede una pianificazione per creare trasformazioni automatizzate che riducano al minimo il lavoro manuale. Il modo in cui le organizzazioni arrivano qui, tuttavia, dipende da molte variabili: da dove provengono le origini dati, se tali origini vengono controllate, a quali campi viene assegnata la priorità, se esistono regole di dati stabilite e quali tipi di flussi di lavoro sono in atto.
L'automazione del maggior numero possibile di processi di pulizia dei dati può essere la parte più importante quando si utilizzano più origini dati in quanto consente un ambiente self-service che mette i dati nelle mani degli utenti più velocemente.
Se costruire un processo di integrazione dei dati sembra un grande sforzo, è perché lo è. Dalle fonti di controllo alla creazione e al perfezionamento di un flusso di lavoro di pulizia dei dati, per mettere in atto un processo di integrazione dei dati senza problemi serve cura e pianificazione. Tuttavia, il valore diventa presto evidente.
Nel business, il tempo è sempre stato denaro. Tuttavia, nell'era dei Big Data, in cui le informazioni in tempo reale arrivano da fornitori e clienti in tutto il mondo, l'importanza di quella semplice formula è cresciuta in modo esponenziale. Le circostanze cambiano rapidamente e gli alti e bassi del business possono spesso essere imprevedibili. Quando i dati si trovano in silos, le linee di business che cercano di analizzare nuove informazioni o di esplorare opportunità di innovazione spesso si sentono come se fossero diversi passi indietro. In verità, si sentono così perché lo sono. Quando le business unit devono fare affidamento su altri team per le estrazioni dei dati e i report di analytics, le cose rallentano.
Alla fine, le informazioni sono preziose solo quando scorrono senza problemi.
L'integrazione dei dati da più origini rimuove molti ostacoli manuali. A sua volta, apre la porta a una gamma più ampia di fonti di dati per scoprire insight nascosti e prendere decisioni realmente basate sui dati. Ciò aumenta sia le capacità che l'efficienza per i dipendenti, il che a sua volta guida l'innovazione e le opportunità per l'organizzazione. In definitiva, l'integrazione di più fonti di dati consente alle organizzazioni di trovare nuove idee e soluzioni, cambiare direzione rapidamente e stare al passo con la concorrenza.
Un'integrazione dei dati di successo mantiene le organizzazioni al passo con la concorrenza, sia ora che in futuro, man mano che le possibilità di dati si espandono. Per arrivarci, tuttavia, è necessaria una combinazione di configurazione tecnica e comprensione da un punto di vista organizzativo. Affrontando queste sfide, le organizzazioni devono cambiare il modo in cui le decisioni vengono prese nelle operations, nelle vendite, nel finance, nel manufacturing e in quasi tutti gli altri dipartimenti.
Ecco alcuni vantaggi e ostacoli che devono essere superati per un'integrazione dei dati di successo.
Il successo dell'integrazione dei dati richiede una buona preparazione in una serie di aree, tra cui supporto tecnico, obiettivi aziendali e cultura aziendale. Di seguito sono riportate le tre caselle più importanti da spuntare prima di avviare un'iniziativa di integrazione dati.
Per avere successo, una strategia di integrazione dei dati ha bisogno di tecnologia che la supporti, di team per gestire i dati di origine e l'inserimento dei dati, di utenti aziendali che scarichino e utilizzino in modo efficace i dati consolidati e di una leadership esecutiva che approvi i budget per l'iniziativa. Ognuno di questi stakeholder è fondamentale. Senza l'adesione a livello di organizzazione, le strategie deraglieranno o, a volte, appassiranno.
Le organizzazioni devono determinare il "perché" dei propri progetti di integrazione dei dati. È necessario accelerare i processi, migliorare gli analytics dei dati, ottenere più insight guidati dai dati, migliorare la precisione o una combinazione di questi tre? È specifico di un dipartimento o di un'iniziativa più ampia?
Identificando obiettivi e parametri specifici, le organizzazioni possono sviluppare un approccio più mirato ed efficace per raggiungere i propri obiettivi di dati.
Prima di avviare un progetto di integrazione dei dati, è importante comprendere i sistemi e i dati esistenti con cui stai lavorando. Nel migliore dei casi, i dati possono essere facilmente esportati e vi è già un accordo e un allineamento tra i dipartimenti per quanto riguarda i formati e gli standard. Cosa succede se obiettivi, processi o formati di dati nativi variano in modo significativo tra i vari dipartimenti? È qui che entra in gioco l'executive sponsorship.
Il lavoro di integrazione dei dati da più fonti prevede diversi passaggi. Durante tutto il processo, tuttavia, è importante tenere a mente la qualità e l'integrità dei dati, insieme alle pertinenti normative sulla sicurezza e sulla privacy dei dati. Inoltre, una volta integrati i dati, assicurati che vengano effettuati un monitoraggio e manutenzione periodici per garantire la qualità e l'integrità dei dati nel tempo.
Le origini dati sono disponibili in molti formati diversi e risiedono in molte posizioni. Ogni organizzazione avrà una combinazione unica di origini dati, come le seguenti:
Indipendentemente dal formato e da altre variabili, la cosa più importante è identificare e selezionare le fonti di dati che contribuiscono agli obiettivi aziendali, quindi esaminare il modo migliore per integrarli.
Dopo aver identificato le origini dati, bisogna vedere come vengono formattati e definiti i relativi set di dati. Sono due gli importanti passi di preparazione.
Ciò che funziona meglio dipende dallo stato dei singoli set di dati e dagli obiettivi organizzativi. Ma una verità universale è che la pulizia e la standardizzazione funzionano meglio quando i processi sono automatizzati. Utilizzando gli strumenti per aiutare nella preparazione dei dati, l'intero processo può non includere alcun intervento manuale. Ora, il personale IT può concentrarsi sugli eventi segnalati piuttosto che sugli sforzi manuali per gestire ogni data set per come è. Gli strumenti low-code e no-code possono favorire una trasformazione semplificata, mentre script e codifica personalizzati possono offrire maggiore flessibilità al processo.
Il tuo metodo di integrazione svolgerà un ruolo importante nel definire la struttura IT complessiva per i dati. Per questo motivo è fondamentale allineare le risorse e gli obiettivi aziendali al metodo scelto, anche se si desidera creare un sistema con integrazione continua o aggiornamenti periodici. Di seguito sono riportati alcuni dei metodi di integrazione dei dati più comuni.
L'implementazione di un piano di integrazione dei dati ben sviluppato può essere un processo complicato e complesso, ma con un approccio metodico, l'investimento darà frutti a lungo termine mentre prepara la tua azienda per un futuro scalabile.
Il processo inizia identificando gli elementi dati e le origini dati, quindi mappando le relazioni tra di essi. Cosa si sovrappone in modo netto? In cosa sono diverse le colonne e le definizioni? E cosa bisogna fare per allinearle?
Da qui, creerai un modello per la trasformazione dei dati. Potresti utilizzare script personalizzati, strumenti di settore predefiniti o una combinazione di entrambi, a seconda delle esigenze e delle risorse disponibili. L'obiettivo è trasformare e unire i dati in un formato comune e risolvere eventuali conflitti tra le origini dati, preferibilmente in modo sistemico per rendere il processo ripetibile e limitare i dati di lavoro di cui devono occuparsi i consumatori.
Durante questo processo, sono disponibili una serie di strumenti e tecnologie di integrazione per i curatori e gli ingegneri dei dati. Fra questi ci sono strumenti ETL che funzionano in tre fasi principali.
Una gamma di strumenti ETL è disponibile in vari formati e piattaforme. Oltre alle tradizionali applicazioni software ETL, gli strumenti ETL basati sul cloud consentono un accesso flessibile perché questi strumenti possono connettere più facilmente fonti e repository eterogenei. Supponendo di avere le giuste competenze IT, gli strumenti ETL open source possono fornire funzionalità solide per un costo iniziale ridotto. Tuttavia, potrebbero non avere lo stesso livello di sviluppo delle funzionalità, sicurezza o garanzia della qualità dei prodotti commerciali e ciò può richiedere un ulteriore investimento di risorse lungo il percorso. Sono disponibili strumenti ETL personalizzati, anche se spesso richiedono un investimento iniziale elevato.
Come fai a sapere quale strumento ETL è adatto alla tua organizzazione? I fattori da considerare includono i tipi di connettori supportati, il livello di personalizzazione disponibile, i requisiti in termini di performance e risorse e i costi completi, comprese le competenze e l'infrastruttura di supporto. Ma soprattutto, gli strumenti ETL dovrebbero essere valutati per le funzionalità di automazione, perché l'automazione è una parte fondamentale delle trasformazioni dei dati sistemici che alla fine portano agli analytics dei dati self-service.
La qualità di un set di dati dipende dalla sua completezza e da accuratezza, tempestività e conformità agli standard. L'importanza della qualità dei dati nei dati integrati non può essere sottolineata abbastanza. Un set di dati di qualità elevata richiede molto meno sforzi per diventare pronto per l'integrazione. Sebbene ciò sia importante dal punto di vista delle risorse, anche la qualità dei dati influisce in modo significativo sull'output. Ad esempio, se un'organizzazione utilizza quattro cifre significative nei calcoli, ma un'origine esterna fornisce dati con solo due cifre significative, tali dati non soddisfano il livello di qualità previsto. Se utilizzata, l'analisi risultante potrebbe contenere insight errati.
Pertanto, i dati di alta qualità sono assolutamente fondamentali nei dati integrati per ridurre al minimo gli sforzi di trasformazione/pulizia e garantire l'accuratezza dell'output.
Come misurare e mantenere la qualità dei dati: diversi metodi sono utili per garantire un'elevata qualità dei dati.
Una volta consolidati i dati in un repository, la tua organizzazione è pronta per il passo successivo: gli analytics self-service. Oracle Analytics offre analytics self-service completi in un'interfaccia utente intuitiva creata per tutti, dagli utenti aziendali ai data scientist. Disponibile nel cloud, on-premise o come implementazione ibrida, Oracle Analytics utilizza il machine learning e l'intelligenza artificiale per scoprire insight nascosti e generare visualizzazioni istantanee. Prova subito Oracle Analytics Cloud gratuitamente con Oracle Cloud Free Tier.
Il principale vantaggio dell'integrazione dei dati provenienti da più fonti, come i dati demografici dei clienti, i dati di vendita e le tendenze del mercato, è che i dipendenti acquisiscono una comprensione più completa di qualsiasi problema o opportunità aziendale. Se fatta correttamente, scoprirai insight e pattern preziosi che potrebbero non essere mai emersi durante l'analisi di ogni fonte di dati in isolamento. Il potenziale risultato? Decisioni più informate, strategie più efficaci, un migliore controllo della qualità dei dati, una maggiore efficienza operativa e un vantaggio competitivo nello scenario aziendale odierno basato sui dati.
Dati diversi sono il modo in cui le aziende addestrano l'AI a lavorare per i loro business. Una volta che i CIO hanno padroneggiato l'integrazione dei dati, bisogna lanciare un programma AI che sfrutti tale impegno.
Quali sono i fattori da considerare quando si scelgono le origini dati per l'integrazione?
I due fattori più importanti coinvolti nella pianificazione dell'integrazione dei dati sono: innanzitutto, sapere quali risorse hai e avrai a tua disposizione e, in secondo luogo, sapere quali sono i tuoi obiettivi aziendali. Da lì, puoi identificare le fonti di dati che manderanno avanti la tua strategia e determinare se è realistico accedervi.
Quali sono alcune best practice per integrare i dati provenienti da più fonti?
Sebbene molte strategie per l'integrazione dei dati si basino su esigenze organizzative individuali, alcune best practice di ampio respiro si applicano a tutti i livelli, come le seguenti:
Quali sono alcuni esempi di casi d'uso per l'integrazione dei dati multi-origine?
Ecco due casi d'uso reali per l'integrazione dei dati multi-origine. Innanzitutto, pensa a un'applicazione per smartphone che trasmette costantemente i dati di utilizzo a un cloud. Questo viene utilizzato come riferimento incrociato con due set di dati correlati, una campagna di e-mail marketing e dati di vendita. Una visione unificata può rilevare insight più approfonditi sul modo in cui utilizzo, marketing e acquisti funzionano insieme. In secondo luogo, pensa a un dispositivo medico IoT che trasmette i record all'account di un paziente. Questo è messo a disposizione di un medico immediatamente, che ha anche accesso ai registri dei pazienti per monitorare per miglioramenti o modifiche.
Perché dobbiamo integrare più fonti di dati?
Con l'aumento del volume e della varietà delle fonti di dati nel tempo, il consolidamento dei set di dati si è evoluto dall'essere qualcosa "bella da avere" a una necessità nel business. In questi giorni, è raro che un'operazione non tragga vantaggio dall'integrazione dei dati. Il trucco, tuttavia, è eseguire una strategia appropriata per l'organizzazione.
Come si chiama il processo attraverso cui si combinano i dati provenienti da fonti diverse?
Se il processo di combinazione delle origini dati si verifica con i passi di preparazione dei dati sistemici, allora è noto come integrazione dei dati. Se le origini dati vengono messe insieme senza questa trasformazione/pulizia, passaggi che vengono effettuati dopo il fatto, allora si parla di unione o blending dei dati.