Nessun risultato trovato

La tua ricerca non ha prodotto risultati

Cos'è un data warehouse?

Un data warehouse è un tipo di sistema di gestione dei dati progettato per abilitare e supportare le attività di business intelligence (BI), in particolare l'analisi dei dati. I data warehouse servono esclusivamente a eseguire query e analisi e spesso contengono grandi quantità di dati storici. I dati all'interno di un data warehouse derivano generalmente da un'ampia gamma di fonti, come i file di registro delle applicazioni e le applicazioni di transazione.

Un data warehouse centralizza e consolida grandi quantità di dati da più fonti. Le sue capacità analitiche consentono alle organizzazioni di ricavare preziosi insight aziendali dai loro dati per migliorare il processo decisionale. Nel tempo, genera un record storico che può essere estremamente utile per i data scientist e gli analisti dei dati aziendali. Grazie a queste funzionalità, un data warehouse può essere considerato un'unica “fonte affidabile” di dati aziendali.

Un tipico data warehouse include spesso i seguenti elementi:

  • Un database relazionale per memorizzare e gestire i dati
  • Una soluzione di estrazione, caricamento e trasformazione (ELT) per preparare i dati per l'analisi
  • Analisi statistiche, reporting e funzionalità di data mining
  • Strumenti di analisi del cliente per visualizzare e presentare i dati agli utenti aziendali
  • Altre applicazioni analitiche più sofisticate che generano informazioni
  • utili applicando algoritmi di machine learning e intelligenza artificiale (AI)

Perché non eseguire l'analisi dei dati nel tuo ambiente OLTP?

I data warehouse sono ambienti relazionali utilizzati per l'analisi dei dati, in particolare dei dati storici. Le organizzazioni utilizzano i data warehouse per scoprire modelli e relazioni nei loro dati, che si sviluppano nel tempo.

Al contrario, gli ambienti transazionali vengono utilizzati per elaborare le transazioni su base continuativa, in particolare per l'inserimento di ordini e le transazioni finanziarie e in ambito retail. Non si basano sui dati storici; infatti, negli ambienti OLTP, i dati storici vengono spesso archiviati o semplicemente eliminati per migliorare le performance.

I data warehouse e i sistemi OLTP sono molto diversi.

Data Warehouse Sistema OLTP
Carico di lavoro Sfrutta le query ad hoc e l'analisi dei dati Supporta solo le operations predefinite
Modifiche dei dati Esegue aggiornamenti automatici su base regolare Gli utenti finali eseguono gli aggiornamenti in base alle proprio specifiche esigenze
Progettazione dello schema Utilizza schemi parzialmente denormalizzati per ottimizzare le performance Utilizza schemi completamente normalizzati per garantire la coerenza dei dati
Scansione dei dati Comprende da migliaia a milioni di righe Accede solo a pochi record alla volta
Dati storici Memorizza molti dati di mesi o anni Memorizza solo dati di settimane o mesi

Data warehouse, data mart e archivi di dati operativi

Sebbene svolgano ruoli simili, i data warehouse sono diversi dai data mart e dagli archivi dei dati operativi (ODS). Un data mart svolge le stesse funzioni di un data warehouse ma in un ambito molto più limitato, di solito una singola divisione o linea di business. In questo modo, i data mart più facili da creare rispetto ai data warehouse. Tuttavia, tendono a mancare di coerenza perché può essere difficile gestire e controllare i dati in modo uniforme su numerosi data mart.

Gli ODS (Operation Data Stores) supportano solo le operations quotidiane, quindi hanno una visione dei dati storici molto limitata. Sebbene funzionino molto bene come fonti di dati attuali e siano spesso utilizzati come tali dai data warehouse, non supportano query ricche di contenuti storici.

Ho bisogno di un data lake?

Le organizzazioni utilizzano sia i data lake che i data warehouse per grandi volumi di dati provenienti da varie fonti. La scelta di quando utilizzare l'uno o l'altro dipende da cosa l'organizzazione intende fare con i dati. Di seguito è descritto come utilizzarli al meglio:

  • I data lake memorizzano una grande quantità di dati diversi e non filtrati da utilizzare successivamente per uno scopo particolare. I dati delle applicazioni delle linee di business, le app per dispositivi mobili, i social media, i dispositivi IoT e altro ancora vengono inseriti come dati grezzi in un data lake. La struttura, l'integrità, la selezione e il formato dei vari set di dati sono ricavati al momento dell'analisi dalla persona che la esegue. Quando le organizzazioni hanno bisogno di uno storage a basso costo per dati non formattati e non strutturati, provenienti da più fonti che intendono utilizzare in futuro per un determinato scopo, un data lake potrebbe essere la scelta giusta.
  • I data warehouse sono destinati specificamente all'analisi dei dati. L'elaborazione analitica all'interno di un data warehouse è eseguita su dati già preparati per l'analisi (ovvero raccolti, contestualizzati e trasformati) al fine di generare insight basati sull'analisi. I data warehouse sono anche in grado di gestire grandi quantità di dati da varie fonti. Quando le organizzazioni hanno bisogno di un'analisi dei dati avanzata che attinga a dati storici provenienti da più fonti all'interno dell'azienda, un data warehouse è probabilmente la scelta giusta.

Vantaggi di un data warehouse

I data warehouse offrono il vantaggio esclusivo e unico di consentire alle organizzazioni di analizzare grandi quantità di variabili e di ricavarne un valore significativo, oltre a mantenere un record storico.

I data warehouse offrono questo vantaggio esclusivo grazie a quattro caratteristiche uniche (descritte dall'informatico William Inmon, considerato il padre del data warehouse). Secondo questa definizione, i data warehouse sono

  • Orientati all'oggetto. Possono analizzare dati su un particolare argomento o area funzionale (come le vendite).
  • Integrati. I data warehouse creano coerenza tra vari tipi di dati provenienti da fonti diverse.
  • Non volatili. Una volta che i dati si trovano in un data warehouse, sono stabili e non cambiano.
  • Variabili nel tempo. L'analisi dei data warehouse considera i cambiamenti nel tempo.

Un data warehouse ben progettato eseguirà le query molto rapidamente, fornirà un throughput di dati elevato e offrirà agli utenti finali una flessibilità sufficiente per “scomporre” o ridurre il volume dei dati per un esame più approfondito, in modo da soddisfare una varietà di richieste, generali o molto approfondite e dettagliate. Il data warehouse funge da base funzionale per gli ambienti BI middleware che forniscono agli utenti finali report, dashboard e altre interfacce.

Architettura del data warehouse

L'architettura di un data warehouse dipende dalle esigenze specifiche dell'organizzazione. Le architetture comuni includono

  • Semplice. Tutti i data warehouse condividono una progettazione di base in cui metadati, dati di sintesi e dati grezzi sono archiviati nella banca dati del warehouse. La banca dati da un lato è arricchita dalle fonti di dati e dall'altro è accessibile dagli utenti finali per le attività di analisi, reporting e mining.
  • Semplicità con un'area di preparazione. I dati operativi devono essere puliti ed elaborati prima di essere inseriti nel warehouse. Sebbene questa operazione possa essere eseguita in modo programmatico, molti data warehouse, al fine di semplificare la preparazione dei dati, aggiungono un'apposita area prima de loro inserimento nel warehouse.
  • Hub and spoke. L'aggiunta di data mart tra la banca dati centrale e gli utenti finali consente a un'organizzazione di personalizzare il proprio data warehouse per servire varie linee di business. Quando i dati sono pronti, vengono trasferiti al data mart appropriato.
  • Sandbox. Le sandbox sono aree private, protette e sicure che consentono alle aziende di esplorare in modo rapido e informale nuovi set di dati o metodi di analisi dei dati senza doversi conformare alle regole formali e al protocollo del data warehouse.

L'evoluzione dei data warehouse: dall'analisi dei dati all'AI e al machine learning

Quando i data warehouse hanno fatto la loro apparizione alla fine degli anni '80, il loro scopo era quello di aiutare a trasferire i dati dai sistemi operativi ai sistemi di supporto alle decisioni (DSS). Questi primi data warehouse richiedevano un'enorme quantità di ridondanza. La maggior parte delle organizzazioni disponeva di più ambienti DSS che servivano i vari utenti. Sebbene gli ambienti DSS utilizzassero principalmente gli stessi dati, le relative attività di raccolta, pulizia e integrazione venivano spesso replicate in ogni ambiente.

Se inizialmente i data warehouse erano archivi di informazioni che supportavano le tradizionali piattaforme di BI, grazie a una maggiore efficienza si sono trasformati in ampie infrastrutture di analisi dei dati che supportano una grande varietà di applicazioni, come l'analisi dei dati operativa e la gestione delle performance.

Le iterazioni del data warehouse sono migliorate nel tempo per fornire alle aziende un maggior valore incrementale.

Passo Funzionalità Valore aziendale
1 Reporting transazionale Fornisce informazioni relazionali per creare snapshot delle performance aziendali
2 Scomposizione, query ad hoc, strumenti di BI Espande le funzionalità per insight più approfonditi e analisi più robuste
3 Previsione delle performance future (data mining) Sviluppa le visualizzazioni e una business intelligence lungimirante
4 Analisi tattica (spaziale, statistica) Offre scenari “what-if” per prendere decisioni pratiche basate su analisi più complete
5 Memorizza molti dati di mesi o anni Memorizza solo dati di settimane o mesi

Il supporto di ognuno di questi cinque passaggi ha richiesto una varietà sempre maggiore di set di dati. Gli ultimi tre passaggi in particolare rendono necessaria una gamma ancora più ampia di dati e di funzionalità di analisi dei dati.

Oggi, l'AI e il machine learning stanno trasformando le risorse di quasi ogni settore, servizio e azienda e i data warehouse non fanno eccezione. L'espansione dei big data e l'applicazione di nuove tecnologie digitali stanno cambiando i requisiti e le funzionalità del data warehouse.

Il data warehouse autonomo è l'ultima fase di questa evoluzione, che offre alle aziende la possibilità di ottenere ancora più valore dai propri dati, ridurre i costi e migliorare l'affidabilità e le performance dei data warehouse.

Scopri di più sui data warehouse autonomi nel nostro e-book, quindi inizia a utilizzare il tuo data warehouse autonomo.

Progettazione di un data warehouse

Quando un'organizzazione decide di progettare un data warehouse, deve innanzitutto definire i suoi specifici requisiti aziendali, concordare l'ambito e preparare una progettazione concettuale. L'organizzazione può quindi creare la progettazione logica e fisica per il data warehouse. La progettazione logica si basa sulle relazioni tra gli oggetti e la progettazione fisica riguarda il metodo migliore per archiviarli e recuperarli. La progettazione fisica comprende anche i processi di trasporto, backup e ripristino.

La progettazione di qualsiasi data warehouse deve incentrarsi sui seguenti elementi:

  • Contenuto specifico dei dati
  • Relazioni all'interno e tra gruppi di dati
  • L'ambiente di sistema che supporterà il data warehouse
  • I tipi di trasformazione di dati richiesti
  • Frequenza di aggiornamento dei dati

Un fattore primario nella progettazione sono le esigenze degli utenti finali. La maggior parte degli utenti finali sono interessati a eseguire analisi e a utilizzare i dati in transazioni combinate, anziché singole. Tuttavia, spesso gli utenti finali non sanno veramente cosa vogliono fino a quando non si presenta una specifica esigenza. Pertanto, il processo di pianificazione dovrebbe includere una fase di esplorazione sufficiente per anticipare i bisogni. Infine, la progettazione del data warehouse dovrebbe tenere conto delle opportunità di espansione ed evoluzione per essere al passo con le crescenti esigenze degli utenti finali.

Il cloud e il data warehouse

I data warehouse nel cloud offrono le stesse caratteristiche e vantaggi dei data warehouse on-premise, a cui si aggiungono gli ulteriori vantaggi del cloud computing, quali flessibilità, scalabilità, agilità, sicurezza e riduzione dei costi. I data warehouse nel cloud consentono alle aziende di dedicarsi esclusivamente a ricavare valore dai propri dati piuttosto che dover creare e gestire l'infrastruttura hardware e software per supportare il data warehouse.

Ulteriori informazioni su Oracle Cloud e i data warehouse (PDF)

Sviluppo semplice: Autonomous Data Warehouse

L'iterazione più recente dei data warehouse è il data warehouse autonomo, che si basa su AI e machine learning per eliminare le attività manuali e semplificare l'installazione, lo sviluppo e la gestione dei dati. Un data warehouse autonomo as-a-service nel cloud non richiede alcun intervento manuale per la gestione del database, la configurazione o la gestione dell'hardware o l'installazione del software.

La creazione del data warehouse, il backup, l'applicazione di patch, l'aggiornamento del database e l'espansione o la riduzione del database vengono eseguiti automaticamente, con la stessa flessibilità, scalabilità, agilità e riduzione dei costi offerte dalle piattaforme cloud. Il data warehouse autonomo rimuove la complessità, accelera lo sviluppo e libera le risorse per consentire alle organizzazioni di concentrarsi sulle attività che aggiungono valore al business.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse è un data warehouse completamente autonomo, facile da usare, scalabile in modo elastico, che offre performance veloci in termini di query e non richiede la gestione del database. L'installazione di Oracle Autonomous Data Warehouse è molto semplice e veloce.

Scopri di più su Oracle Autonomous Data Warehouse Cloud (PDF)