Qual è la differenza tra dati strutturati e non strutturati e perché dovresti interessarti? Per molte aziende e organizzazioni, tali distinzioni potrebbero sembrare appartenenti esclusivamente al reparto IT che si occupa di big data.
Mentre c'è una certa verità a questo, vale la pena per tutti capire la differenza, perché una volta compresa la definizione di dati strutturati e dati non strutturati (insieme a dove vivono tali dati e come elaborarli), vedrai come questo può essere utilizzato per migliorare qualsiasi processo basato sui dati.
Vendite, marketing, operazioni, risorse umane: tutti questi gruppi producono dati. Anche le più piccole imprese, come un negozio tradizionale con inventario fisico e una base clienti locale, producono dati strutturati e non strutturati da cose come e-mail, transazioni con carta di credito, acquisti di magazzino e social media. Approfittare dei dati prodotti dalla tua azienda viene attraverso la comprensione dei due e del modo in cui lavorano insieme.
I dati strutturati sono dati che utilizzano un formato predefinito e previsto. Questo può provenire da molte fonti diverse, ma il fattore comune è che i campi sono fissi, così come il modo in cui vengono memorizzati (da qui, strutturati). Questo modello di dati predeterminato agevola l'inserimento, l'esecuzione di query e l'analisi.
Ad esempio, considerare i dati transazionali di un acquisto online. In questi dati, ogni record avrà un indicatore orario, un importo di acquisto, informazioni sul conto associate (o conto cliente), articoli acquistati, informazioni sul pagamento e un numero di conferma. Poiché ogni campo ha uno scopo definito, è facile eseguire una query manuale (l'equivalente dell'utilizzo di CTRL+F in un foglio di calcolo di Excel) di questi dati. Inoltre, è facile per gli algoritmi di apprendimento automatico identificare pattern e, in molti casi, identificare anomalie al di fuori di tali pattern.
I dati strutturati eseguono il drill-down degli elementi stabiliti e previsti. Gli indicatori orari arriveranno in un formato definito; non trasmetterà (o non potrà) un indicatore orario descritto in parole perché è al di fuori della struttura. Un formato predefinito consente una scalabilità e un'elaborazione semplici, anche se alla fine viene gestito manualmente.
I dati strutturati possono essere utilizzati per qualsiasi cosa a condizione che l'origine definisca la struttura. Alcuni degli usi più comuni del business includono moduli CRM, transazioni online, dati di azioni, dati di monitoraggio della rete aziendale e moduli Web.
Proprio come i dati strutturati vengono forniti con la definizione, i dati non strutturati mancano di una definizione. Anziché i campi predefiniti in un formato mirato, i dati non strutturati possono avere tutte le forme e le dimensioni. Sebbene solitamente il testo (ad esempio un campo di testo aperto in un modulo), i dati non strutturati possono essere memorizzati in molti moduli per essere memorizzati come oggetti: immagini, audio, video, file di documenti e altri formati di file. Il thread comune con tutti i dati non strutturati è una mancanza di definizione.
I dati non strutturati sono più comunemente disponibili (ulteriori informazioni) e i campi potrebbero non avere lo stesso carattere o limiti di spazio dei dati strutturati. Data la vasta gamma di formati che comprendono dati non strutturati, non sorprende che questo tipo di dati costituisca in genere circa l'80% dei dati di un'organizzazione.
I file multimediali sono un esempio di dati non strutturati. Qualcosa come un podcast non ha alcuna struttura per il suo contenuto. La ricerca del file MP3 del podcast non è semplice per impostazione predefinita; i metadati, come il nome del file, l'indicatore orario e i tag assegnati manualmente, possono aiutare la ricerca, ma il file audio stesso manca di contesto senza ulteriori analisi o relazioni.
Questo vale anche per i file video. Gli asset video sono ovunque in questi giorni, da brevi clip sui social media a file più grandi che mostrano webinar completi o discussioni. Come per i file podcast MP3, il contenuto di questi dati non ha specificità al di fuori dei metadati. Non è possibile cercare un file video specifico in base al contenuto effettivo nel database.
Nell'attuale mondo aziendale basato sui dati, l'utilizzo di dati sia strutturati che non strutturati rappresenta un buon modo per sviluppare informazioni approfondite. Torniamo all'esempio dei post sui social media di un'azienda, in particolare i post con qualche forma di allegato ai media. In che modo un'organizzazione può sviluppare informazioni dettagliate sul coinvolgimento nel marketing?
In primo luogo, utilizza i dati strutturati per ordinare i post dei social media in base al massimo coinvolgimento, quindi filtra gli hashtag non correlati al marketing (ad esempio, rimuovendo qualsiasi post di coinvolgimento elevato con un hashtag relativo al servizio clienti). Da lì, i relativi dati non strutturati possono essere esaminati, ovvero i contenuti effettivi dei social media post che guardano alla messaggistica, al tipo di media, al tono e ad altri elementi che possono fornire approfondimenti sul perché il coinvolgimento postgenerato.
Questo può sembrare un sacco di lavoro manuale è coinvolto, e questo è vero diversi anni fa. Tuttavia, i progressi nel Machine Learning e nell'intelligenza artificiale favoriscono i livelli di automazione. Ad esempio, se i file audio vengono eseguiti mediante l'elaborazione del linguaggio naturale per creare un output di riconoscimento vocale, il testo può essere analizzato per modelli di parole chiave o messaggi positivi/negativi. Questi insight sono accelerati grazie a strumenti all'avanguardia, che stanno diventando sempre più importanti a causa del fatto che i Big Data stanno diventando sempre più grandi e che la maggior parte di questi Big Data non è strutturata.
Oggi, i dati vengono generati da molte origini diverse. Vediamo un'azienda di medie dimensioni con un'impostazione standard per l'e-commerce. In questo caso, è probabile che i dati provengano dalle seguenti aree:
E ci possono essere molte più fonti di dati. In effetti, la quantità di dati estratti da qualsiasi azienda in questi giorni è scadente. Non devi essere una grande azienda per far parte della rivoluzione dei big data. Ma il modo in cui gestisci questi dati è fondamentale per poterli utilizzare. La soluzione migliore in molti casi è un data lake.
I data lake sono repository che ricevono dati strutturati e non strutturati. La capacità di consolidare più input di dati in un'unica fonte rende i data lake una parte essenziale di qualsiasi infrastruttura big data. Quando i dati vengono inseriti in un data lake, viene eliminata qualsiasi struttura intrinseca in modo che si tratti di dati grezzi, rendendoli facilmente scalabili e flessibili. Quando i dati vengono letti ed elaborati, viene quindi data la struttura e lo schema necessari, bilanciando sia il volume che l'efficienza.
Powered by Oracle Cloud, i servizi Oracle Big Data accelerano la gestione e l'elaborazione di dati non elaborati. Oracle offre soluzioni flessibili che gestiscono dati strutturati e non strutturati dallo storage dei blocchi ai data lake.