Spiacenti, impossibile trovare dei risultati che corrispondono alla tua ricerca.

È consigliabile provare quanto segue per riuscire a trovare quello che stai cercando:

  • Controlla l'ortografia della ricerca per parola chiave.
  • Utilizza sinonimi per la parola chiave digitata, ad esempio prova “applicazione” anziché “software”.
  • Inizia una nuova ricerca.
Contattaci Registrati su Oracle Cloud

Enterprise Data Mesh

Solutions, use cases, and case studies


The Forrester Wave: Enterprise Data Fabric Q2 2020

Scopri perché Oracle è stato riconosciuto come leader e ha ottenuto il punteggio più alto nella categoria Strategia.

Che cos'è un data mesh?

Il data mesh, un tema che sta generando molto interesse nel software aziendale, è un nuovo approccio nel concepire i dati, che si basa su un'architettura distribuita per la gestione dei dati. L'idea è rendere i dati più accessibili e disponibili per gli utenti business connettendo direttamente proprietari, produttori e consumatori di dati. Il data mesh mira a migliorare i risultati di business delle soluzioni incentrate sui dati e a promuovere l'adozione di moderne architetture di dati.

Da un punto di vista aziendale, il data mesh introduce nuove idee sulla "concezione dei dati come prodotto". In altre parole, concepire i dati come un prodotto che soddisfa un "lavoro da fare", ad esempio per migliorare il processo decisionale, per aiutare a rilevare frodi o avvisare l'azienda di cambiamenti nelle condizioni della supply chain. Per creare prodotti di dati di alto valore, le aziende devono affrontare i cambiamenti di cultura e mentalità e impegnarsi in un approccio più interfunzionale alla modellazione dei domini di business.

Da un punto di vista tecnologico, la visione di Oracle sul data mesh coinvolge tre nuove aree di interesse importanti per l'architettura basata sui dati:

  1. Strumenti che forniscono prodotti di dati come raccolte, eventi e analisi dei dati
  2. Architetture di dati distribuite e decentralizzate che aiutano le organizzazioni che scelgono di abbandonare le architetture monolitiche, ad adottare un multi-cloud e hybrid-cloud computing o che devono operare in maniera decentralizzata a livello globale
  3. Dati in movimento per le organizzazioni che non possono dipendere esclusivamente da dati centralizzati, statici, orientati ai batch e che, invece, si spostano verso registri basati sugli eventi e pipeline incentrate sullo streaming per gli eventi dei dati in tempo reale i quali offrono analytics più tempestivi

Altri aspetti importanti come ad esempio gli strumenti self-service per utenti non tecnici e i modelli solidi di governance dei dati federati sono tanto importanti per l'architettura di data mesh quanto per altre metodologie di gestione dei dati più centralizzate e classiche.

Un nuovo concetto per i dati

Guarda l'introduzione al data mesh di Zhamak Dehghani (34:51)

Un approccio basato su data mesh è un cambiamento di paradigma nel concepire i dati come prodotto. Il Data Mesh introduce cambiamenti organizzativi e di processo di cui le aziende avranno bisogno per gestire i dati come asset di capitale tangibile del business. La prospettiva di Oracle per l'architettura di data mesh richiede l'allineamento tra domini di dati organizzativi e analitici.

Un data mesh mira a connettere i produttori di dati direttamente agli utenti business e, nella massima misura possibile, rimuovere l'intermediario IT dai progetti e dai processi che incorporano, preparano e trasformano le risorse di dati.

Il focus di Oracle sul data mesh è stato nell'offrire ai nostri clienti una piattaforma in grado di soddisfare questi requisiti tecnologici emergenti. Ciò comprende strumenti per i prodotti di dati, architetture decentralizzate basate sugli eventi e modelli di streaming per i dati in movimento. Per la modellazione dei domini dei prodotti di dati e altre problematiche sociotecniche, Oracle si allinea al lavoro svolto dall'opinion leader sul data mesh, Zhamak Dehghani.

Vantaggi di un data mesh

Investire in un data mesh può offrire notevoli vantaggi, tra cui:

  • Totale chiarezza nel valore dei dati attraverso best practice applicate sulla concezione dei dati come prodotto.
  • Oltre il 99,999% della disponibilità dei dati operativi (PDF) utilizzando pipeline di dati basate su microservizi per il consolidamento e la migrazione dei dati.
  • Cicli di innovazione 10 volte più veloci, passando da un ETL manuale orientato ai batch a una trasformazione e caricamento continui (CTL).
  • Riduzione di oltre il 70% nella progettazione dei dati, vantaggi in CI/CD, strumenti per pipeline di dati senza codice e self-service e sviluppo agile.

Il data mesh non è solo un modo di pensare, ma molto di più

Il data mesh è ancora ai primi stadi di maturità del mercato. Quindi, sebbene siano in circolazione una varietà di contenuti di marketing su soluzione che pubblicizzano di essere "data mesh", spesso queste cosiddette soluzioni di data mesh non si adattano all'approccio o ai principi fondamentali.

Un vero data mesh è una mentalità, un modello organizzativo e un approccio all'architettura dei dati aziendali con strumenti di supporto. Una soluzione di data mesh dovrebbe avere le seguenti caratteristiche: concezione dei dati come prodotti, architettura dei dati decentralizzata, proprietà dei dati basati sul dominio, data in movimento distribuiti, accesso self-service e una solida gestione dela governance dei dati.

Non è un data mesh se:

  • Un prodotto del fornitore: non c'è alcun prodotto software data mesh.
  • Un data lake o un data lakehouse: sono complementari e possono far parte di un data mesh più ampio che si estende su più lake, pond e sistemi operativi di record.
  • Un catalogo dati o un grafico: un data mesh richiede un'implementazione fisica.
  • Un progetto di consulenza occasionale: il data mesh è un percorso, non un progetto singolo.
  • Un prodotto di analytics self-service: i classici analytics self-service, la preparazione e il data wrangling possono far parte di un data mesh, così come altre architetture di dati.
  • Una struttura di dati: sebbene concettualmente correlata, il concetto di struttura di dati è più ampio e comprende una vasta gamma di stili di integrazione e gestione dei dati, mentre il data mesh è più associato ai modelli di progettazione basati su decentralizzazione e dominio.

Oracle è leader nel report Forrester Wave per quanto riguarda l'Enterprise Data Fabric, Q2 2020

Perché utilizzare un data mesh?

La triste verità è che le architetture monolitiche dei dati del passato sono ingombranti, costose e poco flessibili. Nel corso degli anni, è diventato chiaro che la maggior parte del tempo e dei costi legati alle piattaforme aziendali digitali, dalle applicazioni agli analytics, viene impiegata per attività di integrazione. Di conseguenza, la maggior parte delle iniziative legate alle piattaforme non ha successo.

Sebbene il data mesh non sia una soluzione miracolosa per le architetture di dati centralizzate e monolitiche, i principi, le pratiche e le tecnologie della strategia di data mesh sono progettati per risolvere alcuni dei più urgenti obiettivi di modernizzazione legati a iniziative di business basate sui dati.

Alcuni dei trend tecnologici che hanno portato ai data mesh, includono:

Per saperne di più su tutti i vantaggi del data mesh, leggi il report di Zhamak Dehghani del 2019: Come andare oltre un data lake monolitico e adottare un data mesh distribuito.

Definizione di data mesh

La strategia decentralizzata dietro al data mesh mira a trattare i dati come un prodotto creando un'infrastruttura di dati self-service per rendere i dati più accessibili agli utenti business.

Orientamento ai risultati

Concezione dei dati come prodotto
  • Cambio di mentalità e adozione del punto di vista del consumatore di dati
  • I proprietari dei domini dei dati sono responsabili dei KPI/SLA del prodotto di dati
Allineamento tra operations e analytics
  • Semantica legata alla rete di tecnologia e di dominio dei dati uguale per tutti
  • Non si "getterà più i dati oltre il muro"
Dati in movimento
  • Acquisisci gli eventi dei dati in tempo reale direttamente dai sistemi di record e consenti alle pipeline self-service di fornire i dati quando necessario
  • Una funzionalità essenziale per abilitare i dati decentralizzati e i prodotti di dati allineati alla fonte

Si oppone all'architettura IT monolitica

Architettura decentralizzata
  • Un'architettura progettata per dati, servizi e cloud decentralizzati
Registri di dati basati sugli eventi
  • Progettato per gestire qualsiasi evento, formato e complessità
Pipeline di dati incentrate sullo streaming
  • Elaborazione dei flussi per impostazione predefinita, elaborazione batch per eccezioni
Piattaforma gestita e self-service
  • Progettata per supportare gli sviluppatori e connettere direttamente i consumatori e i produttori di dati
  • Sicurezza, validità, provenienza e trasparenza integrate

Le funzionalità di Oracle per adottare un data mesh

Quando si passa dalla teoria alla pratica, è necessario implementare soluzioni di tipo aziendale per i dati mission-critical e Oracle può fornire una gamma di soluzioni affidabili per potenziare un data mesh aziendale.

Crea e condividi prodotti di dati

  • Raccolte di dati multi-modello con il database convergente Oracle, consentono lo "shape shifting" dei prodotti di dati nei formati richiesti dai consumatori di dati
  • Prodotti di dati self-service come applicazioni o API tramite Oracle APEX Application Development e Oracle REST Data Services per ottenere un facile accesso e condivisione di tutti i dati
  • Singolo punto di accesso per le query SQL o la virtualizzazione dei dati con Oracle Cloud SQL e Big Data SQL
  • Prodotti di dati per il Machine Learning con la piattaforma di data science di Oracle, Oracle Cloud Infrastructure (OCI) Data Catalog e la piattaforma di dati cloud di Oracle per i data lakehouse
  • Prodotti di dati allineati alla fonte come eventi in tempo reale, alert sui dati e servizi di eventi di dati non elaborati con Oracle Stream Analytics
  • Prodotti di dati self-service allineati al consumatore in una soluzione completa Oracle Analytics Cloud

Adotta un'architettura dati decentralizzata

  • CI/CD agile e di tipo "service mesh" per i container di dati utilizzando i database collegabili Oracle con Kubernetes, Docker o cloud nativi con Autonomous Database
  • Sincronizzazione dei dati tra più region, multi-cloud e cloud-ibridi con i microservizi e Veridata di Oracle GoldenGate per una struttura di transazioni attiva-attiva e affidabile
  • Sfrutta la maggior parte degli eventi di dati relativi ad applicazioni, processi di business e IoT (Internet of Things) con Oracle Integration Cloud e Oracle Internet of Things Cloud
  • Utilizza Oracle GoldenGate o Oracle Transaction Manager for Microservices per le code degli eventi, il sourcing degli eventi o l'inclusione in tempo reale in Kafka e data lake
  • Porta pattern decentralizzati di progettazione basati su domini nel tuo service mesh con Oracle Verrazzano, Helidon e Graal VM

 

3 attributi chiave di un data mesh

Il data mesh non è solo una nuovo termine tecnico che va di moda. Si tratta di una nuova serie di principi, pratiche e funzionalità tecnologiche che rendono i dati più accessibili e individuabili. Il concetto di data mesh si distingue dalle generazioni precedenti di approcci e architetture di integrazione dei dati scostandosi dalle enormi architetture monolitiche dei dati aziendali del passato e promuovendo invece una moderna architettura distribuita, decentralizzata e data-driven del futuro. La base del concetto di data mesh comprende i seguenti attributi chiave:

1.  Concezione dei dati come prodotto

Un cambio di mentalità è il primo e più importante passo verso un data mesh. La volontà di adottare le pratiche apprese dall'innovazione è il trampolino di lancio verso una modernizzazione dell'architettura dei dati di successo.

Queste pratiche apprese includono:

  • Design thinking: una metodologia comprovata per la risoluzione di "problemi inaspettati", applicata ai domini di dati aziendali per la creazione di prodotti di dati eccellenti
  • Teoria Jobs-to-be-done, che applica un'innovazione incentrata sui clienti e un processo di innovazione basato sui risultati per garantire che i prodotti di dati aziendali risolvano reali problemi di business
fpo-01

Le metodologie di design thinking offrono tecniche comprovate che contribuiscono a d abbattere i silos organizzativi, i quali molto spesso ostacolano l'innovazione cross-funzionale. La teoria Jobs-to-be-done è la base essenziale per la progettazione di prodotti di dati che soddisfano obiettivi specifici dei consumatori finali o lavori da svolgere; definisce lo scopo del prodotto.

Sebbene l'approccio al prodotto di dati sia stato inizialmente adottato dalla community di data science, ora viene applicato a tutti gli aspetti della gestione dei dati. Invece di creare architetture tecnologiche monolitiche, il data mesh si concentra sui consumatori di dati e sui risultati di business.

Sebbene la concezione dei dati come prodotto possa essere applicata ad altre architetture di dati, è una parte essenziale di un data mesh. Per degli esempi pragmatici su come concepire i dati come un prodotto, il team di Intuit ha scritto un'analisi dettagliata delle loro esperienze.

Prodotti di dati

I prodotti di qualsiasi tipo, dalle materie prime agli articoli nel tuo negozio di fiducia, vengono prodotti come asset di valore, destinati a essere consumati e hanno un lavoro specifico da svolgere. I prodotti di dati possono assumere varie forme, a seconda del dominio di business o del problema da risolvere, e possono includere:

  • Analytics: report e dashboard cronologici/in tempo reale
  • Set di dati: raccolte di dati in forme/formati diversi
  • Modelli: oggetti dominio, modelli di dati, funzioni di Machine Learning (ML)
  • Algoritmi: modelli ML, punteggio, regole di business
  • Servizi di dati e API: documenti, payload, argomenti, API REST e molto altro

Un prodotto di dati viene creato per l'utilizzo, in genere di proprietà esterna all'IT e richiede il tracciamento di attributi aggiuntivi, come per esempio:

  • Mappatura degli stakeholder: chi è il proprietario, crea e utilizza questo prodotto?
  • Confezionamento e documentazione: come viene utilizzato? Come viene etichettato?
  • Scopo e valore: qual è il valore implicito/esplicito del prodotto? C'è un deprezzamento nel tempo?
  • Qualità e coerenza: quali sono i KPI e gli SLA di utilizzo? È verificabile?
  • Provenienza, ciclo di vita e governance: i dati sono affidabili e spiegabili?

2.  Architettura dei dati decentralizzata

Architettura dei dati decentralizzata

I sistemi IT decentralizzati sono una realtà moderna e con l'avvento delle applicazioni SaaS e dell'infrastruttura di cloud pubblico (IaaS), il decentramento delle applicazioni e dei dati è destinato a rimanere. Le architetture software delle applicazioni stanno passando dai monoliti centralizzati del passato ai microservizi distribuiti (un service mesh). L'architettura dei dati seguirà lo stesso trend verso il decentramento, con dati che diventano più distribuiti su una più ampia varietà di siti fisici e su molte reti. Definiamo tutto ciò un data mesh.

Cos'è un mesh?

Una mesh è una topologia di rete che consente a un grande gruppo di nodi non gerarchici di lavorare insieme in modo collaborativo.

Ecco alcuni esempi comuni di tecnologia:

  • WiFiMesh: molti nodi che lavorano insieme per una copertura migliore
  • ZWave/Zigbee: reti di dispositivi smart home a basso consumo energetico
  • 5G mesh: connessioni cellulari più affidabili e resilienti
  • Starlink: rete a banda larga satellitare su scala globale
  • Service mesh: un modo per fornire controlli unificati sui microservizi decentralizzati (software applicativo)

Il data mesh è allineato a questi concetti di rete e fornisce un modo decentralizzato di distribuire i dati su reti virtuali/fisiche e su grandi distanze. Le architetture monolitiche legacy di integrazione dei dati, come ETL e strumenti di federazione dei dati, e più recentemente i servizi di cloud pubblico, come AWS Glue, richiedono un'infrastruttura altamente centralizzata.

Una soluzione di data mesh completa dovrebbe poter funzionare in un framework multicloud e potenzialmente dovrebbe spaziare dai sistemi on-premise e da più cloud pubblici, fino alle reti edge.

Sicurezza distribuita

In un mondo in cui i dati sono altamente distribuiti e decentralizzati, è fondamentale il ruolo della sicurezza delle informazioni. A differenza dei monoliti altamente centralizzati, i sistemi distribuiti devono delegare le attività necessarie per autenticare e autorizzare vari utenti a diversi livelli di accesso. È difficile delegare la fiducia in reti sicure.

Di seguito riportiamo alcune considerazioni:

  • Crittografia dei dati in archivio: dati/eventi scritti nello storage
  • Autenticazione distribuita: per servizi e data store, ad esempio mTLS, certificati, SSO, aree di memorizzazione segrete e data vault
  • Crittografia dei dati in movimento: dati/eventi che transitano nella memoria
  • Identity Management: servizi di tipo LDAP/IAM tra più piattaforme
  • Autorizzazioni distribuite: per consentire agli endpoint del servizio di redigere i dati
    Ad esempio: sidecar Open Policy Agent (OPA) per inserire il Policy Decision Point (PDP) nel cluster container/K8S in cui viene elaborato l'endpoint del microservizio. LDAP/IAM può essere un qualsiasi servizio compatibile con JWT.
  • Mascheramento deterministico per offuscare in modo affidabile e coerente i dati PII

La sicurezza all'interno di qualsiasi sistema IT può essere ardua ed è ancora più arduo garantire un elevato livello di sicurezza all'interno dei sistemi distribuiti. Tuttavia, questi problemi si possono risolvere.

Domini di dati decentralizzati

Un principio fondamentale del data mesh è la nozione di distribuzione della proprietà e della responsabilità. La best practice consiste nel federare la proprietà dei prodotti e dei domini dei dati alle persone di un'organizzazione più vicine ai dati. In pratica, ciò può allinearsi ai dati di origine (ad esempio, origini dati non elaborati, come i sistemi operativi di record/applicazioni) o ai dati analitici (ad esempio, dati generalmente compositi o aggregati, formattati per un facile utilizzo da parte dei consumatori di dati). In entrambi i casi, i produttori e i consumatori dei dati sono spesso allineati alle business unit anziché alle organizzazioni IT.

I vecchi metodi di organizzazione dei domini di dati spesso cadono nella trappola dell'allineamento con le soluzioni tecnologiche, come ad esempio strumenti ETL, data warehouse, data lake o l'organizzazione strutturale di un'azienda (risorse umane, marketing e altre linee di business). Tuttavia, per un dato problema di business, i domini di dati sono molto spesso più idonei all'ambito del problema che viene risolto, al contesto di un determinato processo di business o alla famiglia di applicazioni in un'area specifica del problema. Nelle grandi organizzazioni, questi domini di dati sono generalmente all'interno di organizzazioni interne e strutture tecnologiche.

La decomposizione funzionale dei domini di dati assume una priorità elevata e di prim'ordine nel data mesh. Varie metodologie di decomposizione dei dati per la modellazione del dominio possono essere applicate all'architettura di data mesh, tra cui la modellazione classica di data warehouse (come Kimball e Inmon) o la modellazione di data vault, ma la metodologia più comune attualmente utilizzata nell'architettura di data mesh è la progettazione basata sul dominio (DDD). L'approccio DDD è emerso dalla decomposizione funzionale dei microservizi e ora è utilizzato in un contesto di data mesh.

3.  Dati dinamici in movimento

Un'area importante in cui Oracle dato il proprio contributo nella discussione sul data mesh è quella di elevare l'importanza dei dati in movimento come fattore chiave di un moderno data mesh. I dati in movimento sono fondamentalmente essenziali per estrarre i dati dal mondo legacy dell'elaborazione batch monolitica e centralizzata. Le funzionalità dei dati in movimento rispondono a diverse domande chiave sul data mesh, come ad esempio:

  • Come possiamo accedere ai prodotti di dati allineati alla fonte in tempo reale?
  • Quali strumenti possono fornire i mezzi per distribuire transazioni di dati affidabili su un data mesh decentralizzato fisicamente?
  • Quando devo rendere disponibili gli eventi dati sotto forma di API dei prodotti di dati, che cosa posso utilizzare?
  • Per i prodotti di dati analitici che devono essere continuamente aggiornati, come potrei allinearmi ai domini di dati e garantire fiducia e validità?

Queste domande non sono solo una questione di "dettagli di implementazione", ma sono fondamentali per l'architettura dei dati stessa. Un design basato sul dominio per i dati statici utilizzerà tecniche e strumenti diversi rispetto a un processo dinamico e di dati in movimento dello stesso design. Ad esempio, nelle architetture di dati dinamiche, il registro dati è la fonte di verità centrale per gli eventi di dati.

Registro dei dati basati sugli eventi

Registro dei dati basati sugli eventi

I registri sono una componente fondamentale per la creazione di una funzione di architettura dei dati distribuita. Come accade con un registro contabile, un registro dati registra le transazioni mentre si verificano.

Quando distribuiamo il registro, gli eventi di dati diventano "ripetibili" in qualsiasi posizione. Alcuni registri sono un po' come la scatola nera di un aereo che viene utilizzata per l'alta disponibilità e il Disaster Recovery.

A differenza dei data store centralizzati e monolitici, i registri distribuiti sono creati appositamente per tenere traccia di eventi atomici e/o transazioni che si verificano in altri sistemi (esterni).

Un data mesh non è solo un singolo tipo di registro. A seconda dei casi d'uso e dei requisiti, un data mesh può utilizzare diversi tipi di registri basati sugli eventi, tra cui:

  • Registro eventi per uso generico, ad esempio Kafka o Pulsar
  • Registro degli eventi di dati: CDC/strumenti di replica distribuiti
  • Middleware per la messaggistica, inclusi ESB, MQ, JMS e AQ
  • Registro della blockchain per transazioni sicure, immutabili e con più parti

Insieme, questi registri possono agire come una sorta di registro degli eventi durevole per l'intera azienda, fornendo un elenco in esecuzione degli eventi di dati che si verificano sui sistemi di record e sui sistemi di analytics.

Flussi di dati poliglotti

Flussi di dati poliglotti

I flussi di dati poliglotti sono più diffusi che mai. Possono variare in base ai tipi di evento, ai payload e alla semantica delle transazioni. Un data mesh dovrebbe supportare i tipi di flusso necessari per una vasta gamma di carichi di lavoro di dati aziendali.

Eventi semplici:
- Base64 / JSON—eventi raw e senza schema
- Telemetria raw—eventi isolati

Eventi di log dell'applicazione di base /Internet of Things (IoT):
- JSON/Protobuf—potrebbe avere uno schema
- MQTT—protocolli specifici per IoT

Eventi del processo aziendale dell'applicazione:
- Eventi SOAP/REST—XML/XSD, JSON
- B2B—protocolli e standard di scambio

Eventi/transazioni dati:
- Record delle modifiche logici—LCR, SCN, URID
- Limiti coerenti—commit rispetto alle operations

Elaborazione dei dati di flusso

Per l'elaborazione dei flussi si intende la modalità di manipolazione dei dati in un flusso di eventi. A differenza delle "funzioni lambda", il processore di flusso mantiene lo stato dei flussi di dati all'interno di una determinata finestra temporale e può applicare query analitiche molto più avanzate sui dati.

    Filtro dati di base:

    • Soglie, alert e monitoraggio della telemetria

    ETL semplice:

    • Funzioni RegEx, matematica/logica e concatenazione
    • Registrazione per record, sostituzioni e mascheramento

CEP e ETL complesso:

  • Elaborazione di eventi complessi (CEP)
  • Elaborazione DML (ACID) e gruppi di tuple
  • Aggregazioni, ricerche, join complessi

Stream analytics:

  • Analytics delle serie temporali e finestre temporali personalizzate
  • Geospaziale, Machine Learning e intelligenza artificiale integrata

Altri attributi e principi importanti

Naturalmente, un data mesh ha più di tre attributi. Ci siamo concentrati su questi tre aspetti per attirare l'attenzione sugli attributi che Oracle ritiene siano alcuni degli aspetti nuovi e unici del moderno approccio al data mesh.

Altri importanti attributi relativi al data mesh includono:

  • Strumenti self-service: il data mesh abbraccia il trend complessivo legato alla gestione dei dati verso il self-service, gli sviluppatori alle prime armi dovranno provenire sempre più dalle fila dei proprietari dei dati
  • Governance dei dati: il data mesh ha anche abbracciato il trend di lunga data verso un modello di governance federato più formalizzato, sostenuto dai Chief Data Officer, dagli data steward e dai fornitori di Data Catalog da molti anni.
  • Usabilità dei dati : approfondendo i principi della data mesh, ci sono le basi per garantire che i prodotti di dati siano altamente utilizzabili. I principi per i prodotti di dati riguarderanno dati che sono preziosi, utilizzabili e fattibili da condividere.

 

7 casi d'uso di data mesh

Un data mesh di successo soddisfa i casi d'uso per i domini dati operativi e analitici. I sette casi d'uso seguenti illustrano la vasta gamma di funzionalità che un data mesh apporta ai dati aziendali.

Integrando dati operativi e analytics in tempo reale, le aziende possono prendere migliori decisioni operative e strategiche.

MIT Sloan School of Management

1. Modernizzazione delle applicazioni

Guardando oltre le migrazioni in modalità "lift and shift" delle architetture di dati monolitiche al cloud, molte organizzazioni cercano anche di dismettere le proprie applicazioni centralizzate del passato e di passare a un'architettura applicativa di microservizi più moderna.

Le basi del data mesh per le migrazioni monolite
Le basi del data mesh per le migrazioni monolite
Modello "strangler fig" per decomposizione monolitica e migrazioni a fasi
Modello "strangler fig" per decomposizione monolitica e migrazioni a fasi

Tuttavia, i monoliti delle applicazioni legacy dipendono in genere da database enormi, sollevando la questione di come suddividere gradualmente il piano di migrazione in modo da ridurre interruzioni, rischi e costi. Un data mesh può fornire un'importante funzionalità IT operativa per i clienti che eseguono transizioni graduali dai monoliti all'architettura mesh. Ad esempio:

  • Offload del sottodominio delle transazioni del database, come ad esempio il filtro dei dati per "contesto delimitato"
  • Replica bidirezionale delle transazioni per le migrazioni a fasi
  • Sincronizzazione multipiattaforma, ad esempio mainframe a DBaaS

Nel gergo degli architetti di microservizi, questo approccio utilizza un transaction outbox bidirezionale per abilitare il modello di migrazione "strangler fig", un contesto delimitato alla volta.

2. Disponibilità e continuità dei dati

Data mesh per eventi dati distribuiti geograficamente
Data mesh per eventi dati distribuiti geograficamente

Le applicazioni business-critical richiedono KPI e SLA molto elevati per resilienza e continuità. Indipendentemente dal fatto che queste applicazioni siano monolitiche, microservizi o una via di mezzo, non possono subire un'interruzione.

Per i sistemi mission-critical, un modello dati distribuito di coerenza finale non è in genere accettabile. Tuttavia, queste applicazioni devono funzionare in molti data center. Sorge spontaneo chiedersi riguardo alla business continuity, "Come si eseguono le applicazioni in più data center, garantendo al contempo dati corretti e coerenti"

Indipendentemente dal fatto che le architetture monolitiche utilizzino "set di dati con partizionamento" o che i microservizi siano predisposti per l'alta disponibilità tra più siti, il data mesh offre dati corretti e ad alta velocità a qualsiasi distanza.

Un data mesh può fornire le basi per dati decentralizzati, ma corretti al 100% su tutti i siti. Ad esempio:

  • Transazioni logiche a latenza molto bassa (su più piattaforme)
  • Garanzie compatibili con ACID per i dati corretti
  • Multi-attivo, bidirezionale e risoluzione dei conflitti

3. Sourcing degli eventi e transaction outbox

Interoperabilità basata sugli eventi tra varie applicazioni, microservizi e database
Interoperabilità basata sugli eventi tra varie applicazioni, microservizi e database
Pattern generico per Transaction Outbox
Pattern generico per Transaction Outbox (nota: esistono variazioni/ottimizzazione di data mesh per questo pattern).

Una piattaforma moderna in stile mesh dei servizi utilizza eventi per lo scambio di dati. Anziché dipendere dall'elaborazione batch nel livello di dati, i payload dei dati vengono eseguiti in modo continuo quando si verificano eventi nell'applicazione o nel data store.

Per alcune architetture, i microservizi devono scambiare i payload dei dati tra loro. Altri modelli richiedono lo scambio tra applicazioni monolitiche o data store. Sorge spontaneo chiedersi, "Come si scambiano in modo affidabile i payload dei dati dei microservizi tra le applicazioni e i data store?"

Un data mesh può fornire la tecnologia di base per lo scambio di dati incentrato sui microservizi. Ad esempio:

  • Da microservizi a microservizi nel contesto
  • Dai microservizi ai microservizi tra contesti
  • Monolite da/verso un microservizio

I modelli di microservizi, come il sourcing di eventi, CQRS e transaction outbox, sono soluzioni comunemente comprese; un data mesh fornisce gli strumenti e i framework per rendere questi pattern ripetibili e affidabili su larga scala.

4. Integrazione basata sugli eventi

Oltre ai modelli di progettazione dei microservizi, la necessità di un'integrazione aziendale si estende ad altri sistemi IT, come database, processi di business, applicazioni e dispositivi fisici di qualsiasi tipo. Un data mesh fornisce le basi per l'integrazione dei dati in movimento.

I dati in movimento sono generalmente basati sugli eventi. Un'azione utente, un evento dispositivo, una fase del processo o un commit del data store possono avviare un evento con un payload di dati. Questi payload di dati sono fondamentali per l'integrazione di sistemi IoT (Internet of Things), di processi e di database aziendali, di data warehouse e di data lake.

Integrazione basata sugli eventi

Un data mesh fornisce la tecnologia di base per un'integrazione in tempo reale attraverso tutta l'azienda. Ad esempio:

  • Connettere eventi reali dei dispositivi ai sistemi IT
  • Integrare i processi di business nei sistemi ERP
  • Allineare i database operativi ai data store analitici

È ovvio che le grandi organizzazioni hanno una combinazione di sistemi vecchi e nuovi, di monoliti e di microservizi e di data store operativi e analitici; un data mesh consente di unificare queste risorse tra domini aziendali e di dati diversi.

5. Importazione dati in streaming (per analytics)

Sfruttare un data mesh per un'inclusione di dati comuni tra data lake, data warehouse e data mart
Sfruttare un data mesh per un'inclusione di dati comuni tra data lake, data warehouse e data mart

I data store analitici possono includere data mart, data warehouse, cubi OLAP, data lake e tecnologie di data lakehouse.

In generale, ci sono solo due modi per inserire i dati in questi data store analitici:

  • Caricamento batch/micro-batch su programma orario
  • Importazione dati in streaming: caricamento continuo di eventi dati

Una data mesh fornisce le basi per una funzionalità di importazione dei dati in streaming. Ad esempio:

  • Eventi dati da database o data store
  • Eventi del dispositivo dalla telemetria del dispositivo fisico
  • Registrazione degli eventi dell'applicazione o transazioni di business

L'inclusione di eventi a seconda del flusso può ridurre l'impatto sui sistemi di origine, migliorare la fedeltà dei dati (importanti per la data science) e supportare gli analytics in tempo reale.

6. Pipeline di dati in streaming

Un data mesh può creare, eseguire e gestire pipeline di dati in streaming all'interno di un data lake
Un data mesh può creare, eseguire e gestire pipeline di dati in streaming all'interno di un data lake

Una volta incluse nei data store analitici, in genere è necessario che le pipeline di dati preparino e trasformino i dati in diverse fasi o aree dati. Molto spesso, questo processo di perfezionamento dei dati è necessario per i prodotti di dati analitici a valle.

Un data mesh può fornire un livello gestito di pipeline di dati in modo indipendente che funzioni con i data store analitici e in particolare i seguenti servizi di base:

  • Individuazione e preparazione dei dati self-service
  • Governance delle risorse di dati nei vari domini
  • Preparazione e trasformazione dei dati nei formati di prodotto dati necessari
  • Verifica dei dati a se conda dei criteri in modo da garantisce la coerenza

Queste pipeline di dati devono essere in grado di funzionare su diversi data store fisici (ad esempio mart, warehouse o lake) o come un "flusso di dati di tipo pushdown" all'interno delle piattaforme di dati analitici che supportano i dati in streaming, come ad esempio Apache Spark e altre tecnologie di data lakehouse.

7. Streaming analytics

Eventi di tutti i tipi (IoT, database e così via) possono essere analizzati in flussi in tempo reale
Eventi di tutti i tipi possono essere analizzati in flussi in tempo reale

Gli eventi accadono in modo continuo. L'analisi degli eventi in un flusso può essere fondamentale per capire cosa sta succedendo di tanto in tanto.

Questo tipo di analisi basata su serie temporali dei flussi di eventi in tempo reale può essere importante per i dati dei dispositivi IoT reali e per comprendere cosa accade nei data center IT o nelle transazioni finanziarie, come ad esempio il monitoraggio delle frodi.

Un data mesh completo di tutte le funzionalità include le funzionalità di base per analizzare eventi di ogni tipo, attraverso diversi tipi di finestre temporali di eventi. Ad esempio:

  • Analisi semplice del flusso di eventi (eventi Web)
  • Monitoraggio attività di business (eventi SOAP/REST)
  • Elaborazione di eventi complessi (correlazione multi-flusso)
  • Analisi degli eventi dati (su transazioni DB/ACID)

Analogamente alle pipeline di dati, gli streaming analytics potrebbero essere eseguiti all'interno di un'infrastruttura consolidata di data lakehouse o in modo disgiunto come servizi cloud nativi.

Massimizza il valore utilizzando un mesh comune per l'intera proprietà dei dati

I leader dell'integrazione dei dati si aspettano un'integrazione dei dati operativi e analitici in tempo reale da una raccolta eterogenea di data store resilienti. Le innovazioni sono rapide e continue, mentre l'architettura dei dati si evolve negli streaming analytics. L'alta disponibilità operativa ha portato ad analytics in tempo reale e l'automazione dell'ingegneria dei dati semplifica la preparazione dei dati, dando accesso a data scientist e analisti a strumenti self-service.

Riepilogo dei casi d'uso di data mesh

Riepilogo dei casi d'uso di data mesh

Crea un mesh operativo e analitico all'interno dell'intera proprietà dei dati
Mettere a punto tutte queste funzionalità di gestione dei dati in un'architettura unificata avrà un impatto su tutti i consumatori di dati. Un data mesh contribuirà a migliorare i sistemi di record e i sistemi di coinvolgimento globali per operare in modo affidabile e in tempo reale, allineando tali dati in tempo reale ai manager delle linea di business, ai data scientist e ai clienti. Inoltre, semplifica la gestione dei dati per le applicazioni di microservizi di nuova generazione. Utilizzando moderni metodi e strumenti analitici, gli utenti finali, gli analisti e i data scientist saranno ancora più reattivi alle richieste dei clienti e alle minacce legate alla concorrenza. Per avere un esempio ben documentato, leggi gli obiettivi e i risultati di Intuit.

Trai vantaggio da un data mesh in singoli progetti
Quando si adotta la mentalità e il modello operativo dei dati come prodotto, è importante sviluppare un'esperienza in ciascuna di queste tecnologie abilitanti. Nel tuo percorso verso il data mesh puoi ottenere vantaggi incrementali trasformando la tua architettura dati in streaming analytics, sfruttando i tuoi investimenti operativi ad alta disponibilità in analytics in tempo reale e offrendo analytics self-service e in tempo reale per i tuoi data scientist e analisti.

Confronta e vedi le differenze

  Struttura dati Integrazione sviluppo applicazioni Data store analitico
  Data mesh Integrazione dei dati Metacatalogo Microservizi Messaggistica Data lakehouse DW distribuito
Persone, processi e metodi:
Focus sui prodotti di dati
disponibile
disponibile
disponibile
1/4 offerta
1/4 offerta
3/4 offerta
3/4 offerta
Attributi tecnici dell'architettura:
Architettura distribuita
disponibile
1/4 offerta
3/4 offerta
disponibile
disponibile
1/4 offerta
3/4 offerta
Registri basati sugli eventi
disponibile
non disponibile
1/4 offerta
disponibile
disponibile
1/4 offerta
1/4 offerta
Supporto ACID
disponibile
disponibile
non disponibile
non disponibile
3/4 offerta
3/4 offerta
disponibile
Orientato al flusso
disponibile
1/4 offerta
non disponibile
non disponibile
1/4 offerta
3/4 offerta
1/4 offerta
Focus sui dati analitici
disponibile
disponibile
disponibile
non disponibile
non disponibile
disponibile
disponibile
Focus sui dati operativi
disponibile
1/4 offerta
disponibile
disponibile
disponibile
non disponibile
non disponibile
Rete fisica e logica
disponibile
disponibile
non disponibile
1/4 offerta
3/4 offerta
3/4 offerta
1/4 offerta

Risultati aziendali


Vantaggi generali

Cicli di innovazione più veloci e basati sui dati

Costi ridotti per le operazioni di dati mission-critical

Risultati operativi

Liquidità dei dati multicloud
- Consenti che il capitale dei dati fluisca liberamente

Condivisione dei dati in tempo reale
- Ops-to-Ops e Ops-to-analytics

Servizi di dati edge e basati sulla posizione
- Metti in relazione gli eventi dei dispositivi e dei dati IRL

Interscambio di dati affidabili dei microservizi
- Sourcing degli eventi con dati corretti
- DataOps e CI/CD per i dati

Continuità ininterrotta
- >99,999% di SLA di uptime
- Migrazioni cloud

Risultati analitici

Automatizza e semplifica i prodotti di dati
- Set di dati multi-modello

Analisi dei dati della serie temporale
- Delta/record modificati
- Fedeltà evento per evento

Elimina tutte le copie dei dati e ottieni un data store operativo
- Registri e pipeline basati sui log

Data lake e data warehouse distribuiti
- Ibrido/multicloud/globale
- Integrazione streaming/ETL

Analitica predittiva
- Monetizzazione dei dati, nuovi servizi di dati in vendita

Una completa unione

La trasformazione digitale è molto complessa e sfortunatamente la maggior parte delle aziende non riuscirà a portarla a termine con successo. Nel corso degli anni, la tecnologia, la progettazione del software e l'architettura dei dati stanno diventando sempre più distribuite, mentre le tecniche moderne si scostano dagli stili altamente centralizzati e monolitici.

Il data mesh è un nuovo concetto relativo ai dati, ossia è un cambiamento deliberato che punta agli eventi di dati altamente distribuiti e in tempo reale rispetto a un'elaborazione di dati monolitica, centralizzata e in modalità batch. Fondamentalmente, il data mesh è un cambio di mentalità culturale che mette al primo posto le esigenze dei consumatori di dati. È anche un vero e proprio cambiamento tecnologico che si focalizza sulle piattaforme e i servizi che supportano un'architettura di dati decentralizzata.

I casi d'uso di data mesh includono sia i dati operativi sia quelli analitici e ciò rappresenta una differenza fondamentale rispetto ai data lake/lakehouse e ai data warehouse convenzionali. Questo allineamento dei domini di dati operativi e analitici è un fattore determinante dietro alla necessità di incrementare le funzionalità self-service per i consumatori di dati. La moderna tecnologia delle piattaforme di dati consente di rimuovere l'intermediario che connette direttamente produttori e consumatori di dati.

Oracle è da tempo leader di mercato nelle soluzioni di dati mission critical e ha messo in campo alcune delle funzionalità più moderne che consentono un data mesh affidabile:

  • Infrastruttura Generation 2 Cloud di Oracle con oltre 33 region attive
  • Database multi-modello per prodotti di dati "shape-shifting"
  • Registro di eventi fdi dati basato su microservizi per tutti i data store
  • Elaborazione dei flussi multicloud per dati affidabili e in tempo reale
  • Piattaforma API, sviluppo moderno di applicazioni e strumenti self-service
  • Analytics, visualizzazione dei dati e data science cloud nativa