Geen resultaten gevonden

Uw zoekopdracht heeft geen resultaten opgeleverd.

We raden u aan het volgende te proberen om te vinden wat u zoekt:

  • Controleer de spelling van het trefwoord in uw zoekopdracht.
  • Gebruik synoniemen voor het trefwoord dat u hebt getypt. Probeer bijvoorbeeld “applicatie” in plaats van “software”.
  • Start een nieuwe zoekopdracht.
Contact opnemen Aanmelden bij Oracle Cloud

Enterprise Data Mesh

Solutions, use cases, and case studies


De Forrester Wave: Enterprise Data Fabric, Q2 2020

Ontdek waarom Oracle is uitgeroepen tot leider en de hoogste score heeft behaald in de categorie Strategie.

Wat is datamesh?

Datamesh, een veelbesproken onderwerp in de bedrijfssoftware en een nieuwe benadering van het denken over gegevens op basis van een gedistribueerde architectuur voor gegevensbeheer. Het idee is om gegevens toegankelijker en beschikbaarder te maken voor zakelijke gebruikers door eigenaren, producenten en gebruikers van gegevens rechtstreeks met elkaar te verbinden. Datamesh is bedoeld om de zakelijke resultaten van gegevensgerichte oplossingen te verbeteren en de invoering van moderne gegevensarchitecturen te bevorderen.

Vanuit zakelijk oogpunt introduceert datamesh nieuwe ideeën rond 'gegevensproductdenken'. Met andere woorden, gegevens beschouwen als een product dat voorziet in een 'job-to-be-done', bijvoorbeeld de besluitvorming verbeteren, fraude opsporen of het bedrijf waarschuwen voor veranderingen in de supply chain-omstandigheden. Om hoogwaardige dataproducten te kunnen maken, moeten bedrijven aandacht besteden aan cultuur- en mindset-veranderingen en zich inzetten voor een meer multifunctionele benadering van bedrijfsdomeinmodellering.

Vanuit technologisch perspectief omvat de visie van Oracle op datamesh drie belangrijke nieuwe focusgebieden voor gegevensgestuurde architectuur:

  1. Hulpprogramma's die gegevensproducten bieden in de vorm van gegevensverzamelingen, gegevensevents en gegevensanalyse
  2. Verspreide, gedecentraliseerde gegevensarchitecturen ter ondersteuning van organisaties die ervoor kiezen om over te stappen van monolithische architecturen op multi-cloud- en hybride cloudcomputing of die wereldwijd gedecentraliseerd moeten werken
  3. Actieve gegevens voor organisaties die niet uitsluitend kunnen steunen op gecentraliseerde, statische gegevens in batches, en in plaats daarvan overstappen op gebeurtenisgestuurde gegevensgrootboeken en stroompijplijnen voor realtime gegevensgebeurtenissen die tijdigere analyses bieden

Andere belangrijke zorgen, zoals selfservicetools voor niet-technische gebruikers en sterke modellen voor geconsolideerde gegevensgovernance, zijn net zo belangrijk voor de datamesharchitectuur als voor andere, meer gecentraliseerde en klassieke gegevensbeheermethodologieën.

Een nieuw concept voor gegevens

Bekijk de inleiding tot datamesh van Zhamak Dehghani (34:51)

Een datamesh-benadering is een paradigmaverschuiving: gegevens worden gezien als een product. Met datamesh worden organisatorische en proceswijzigingen geïntroduceerd die bedrijven nodig hebben om gegevens te beheren als een tastbaar kapitaalactivum van het bedrijf. In de visie van Oracle op mesharchitectuur is er afstemming tussen de verschillende organisatorische en analytische gegevensdomeinen.

Een datamesh is bedoeld om gegevensproducenten rechtstreeks te koppelen aan zakelijke gebruikers en zoveel mogelijk de IT-tussenpersoon weg te nemen uit de projecten en processen die dataresources opnemen, voorbereiden en transformeren.

Als het om datamesh gaat, legt Oracle zich toe op het bieden van een platform voor onze klanten dat kan voldoen aan deze opkomende technologische vereisten. Dit omvat tools voor gegevensproducten, gedecentraliseerde, gebeurtenisgestuurde architecturen en stroompatronen voor actieve gegevens. Voor modellering van gegevensproductdomeinen en andere maatschappelijke kwesties sluit Oracle aan bij het werk dat wordt gedaan door de thought leader op het gebied van datamesh, Zhamak Dehghani.

Voordelen van een datamesh

Investeren in een datamesh kan indrukwekkende voordelen opleveren, waaronder:

  • Totale helderheid in de waarde van gegevens door best practices op het gebied van toegepast gegevensproductdenken.
  • Meer dan 99,999% operationele beschikbaarheid van gegevens (pdf) met behulp van op microservices gebaseerde gegevenspijplijnen voor consolidatie en migraties.
  • 10x snellere innovatiecycli, waarbij wordt overgestapt van handmatige, batchgeoriënteerde ETL naar continue transformatie en laden (CTL).
  • Meer dan 70% minder data-engineering, verbeteringen in CI/CD, selfservice gegevenspijplijntools zonder code en flexibele ontwikkeling.

Datamesh is een mindset en meer

Datamesh bevindt zich nog in de beginstadia van marktontwikkeling. Dus hoewel u misschien een verscheidenheid aan marketingcontent ziet over een oplossing die beweert "datamesh" te zijn, sluiten deze zogenaamde datameshoplossingen vaak niet aan bij de kernbenadering of -principes.

Een goede datamesh is een mindset, een organisatiemodel en een enterprise data-architectuurbenadering met ondersteunende tools. Een datameshoplossing moet een combinatie zijn van gegevensproductdenken, gedecentraliseerde gegevensstructuur, domeingeoriënteerd gegevenseigendom, verspreide actieve gegevens, selfservicetoegang en sterk gegevenstoezicht.

Datamesh is geen:

  • Product van een leverancier: een datamesh is niet een enkel, specifiek softwareproduct.
  • Data lake of data lake-houses: deze zijn complementair en kunnen onderdeel zijn van een grotere datamesh die meerdere lakes, ponds en operationele registratiesystemen omvat.
  • Gegevenscatalogus of -grafiek: een datamesh vereist een fysieke implementatie.
  • Eenmalig consultatieproject: een datamesh is een traject, geen los project.
  • Selfservice analyseproduct: klassieke selfservice-analyse, gegevensvoorbereiding en data wrangling kunnen deel uitmaken van een datamesh en andere gegevensarchitecturen.
  • Gegevensmateriaal: gegevensmateriaal is een verwant concept, maar is breder en omvat een verscheidenheid aan gegevensintegratie- en gegevensbeheerstijlen, terwijl datamesh meer gerelateerd is aan decentralisatie en domeingestuurde ontwerppatronen.

Oracle is een leider volgens het Forrester Wave-rapport over Enterprise Data Fabric, Q2 2020

Waarom datamesh?

De trieste waarheid is dat de monolithische gegevensarchitecturen uit het verleden omslachtig, duur en star zijn. In de loop der jaren is duidelijk geworden dat het grootste deel van de tijd en kosten voor een digitaal bedrijfsplatform, van applicaties tot analyses, gaat naar integratie-inspanningen. Daarom mislukken de meeste platforminitiatieven.

Hoewel datamesh geen zilveren kogel is voor gecentraliseerde, monolithische gegevensarchitecturen, zijn de principes, werkwijzen en technologieën van de datameshstrategie ontworpen om enkele van de meest urgente en niet-geadresseerde moderniseringsdoelstellingen te behalen voor gegevensgestuurde bedrijfsinitiatieven.

De technologietrends die hebben geleid tot de opkomst van 'datamesh' als oplossing zijn onder meer:

Lees het originele artikel uit 2019 van Zhamak Dehghani: How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh voor meer informatie over waarom datamesh nodig is.

De definitie van datamesh

De gedecentraliseerde strategie achter datamesh is bedoeld om gegevens als een product te behandelen door een selfservice gegevensinfrastructuur te creëren om gegevens toegankelijker te maken voor zakelijke gebruikers.

Gericht op resultaten

Gegevensproductdenken
  • Mindsetverschuiving naar het standpunt van de gegevensconsument
  • Eigenaren van gegevensdomeinen zijn verantwoordelijk voor KPI's/SLA's van gegevensproducten
Afstemming voor bedrijfsvoering en analyses
  • Dezelfde semantiek voor gegevensdomeinen en technologienetwerken voor iedereen
  • Niet meer 'gegevens over de muur gooien'
Actieve gegevens
  • Registreer realtime gegevensevents rechtstreeks vanuit registratiesystemen en stel selfservicepijplijnen in staat om gegevens te verschaffen waar nodig
  • Een essentiële capaciteit voor het activeren van gedecentraliseerde gegevens en op bronnen afgestemde gegevensproducten

Wijst een monolithische IT-architectuur af

Gedecentraliseerde architectuur
  • Een architectuur die is gebouwd voor gedecentraliseerde gegevens, services en clouds
Gebeurtenisgestuurde gegevensgrootboeken
  • Ontworpen voor alle soorten gebeurtenissen, formats en complexiteit
Stroomgerichte gegevenspijplijnen
  • Stroomverwerking als standaard, batchverwerking als uitzondering
Selfservice, beheerd platform
  • Ontworpen om ontwikkelaars in staat te stellen gegevensconsumenten rechtstreeks met gegevensproducenten te verbinden
  • Ingebouwde beveiliging, validatie, herkomst en transparantie

Mogelijkheden van Oracle om een datamesh tot stand te brengen

Bij de overgang van theorie naar praktijk is het noodzakelijk om hoogwaardige oplossingen voor bedrijfskritische gegevens te implementeren. Oracle kan daarbij een reeks vertrouwde oplossingen bieden om een zakelijke datamesh op te zetten.

Gegevensproducten maken en delen

  • Gegevensverzamelingen voor meerdere modellen binnen de geconvergeerde Oracle-database maken veranderende gegevensproducten mogelijk in de format die gegevensconsumenten willen gebruiken
  • Selfservice gegevensproducten als applicaties of API's, die gebruikmaken van Oracle APEX Application Development en Oracle REST Data Services voor eenvoudige toegang tot en delen van alle gegevens
  • Eén toegangspunt voor SQL-query's of gegevensvirtualisatie met Oracle Cloud SQL en Big Data SQL
  • Gegevensproducten voor machine learning met het datawetenschapplatform van Oracle, de Data Catalog van Oracle Cloud Infrastructure (OCI) en het clouddataplatform van Oracle voor data lake houses
  • Op bronnen afgestemde gegevensproducten als realtime gebeurtenissen, gegevenswaarschuwingen en services voor onbewerkte gegevensgebeurtenissen met Oracle Stream Analytics
  • Op consumenten afgestemde selfservice gegevensproducten in een uitgebreide Oracle Analytics Cloud-oplossing

Gebruik een gedecentraliseerde gegevensarchitectuur

  • CI/CD in flexibele 'servicemesh'-stijl voor gegevenscontainers met Oracle Pluggable Databases met Kubernetes, Docker of cloud-native met Autonomous Database
  • Synchroniseer gegevens tussen regio's, meerdere clouds en hybride clouds met Oracle GoldenGate microservices en Veridata, voor een vertrouwde actief-actieve transactiestructuur
  • Profiteer van de meeste gegevensevents van applicaties, bedrijfsprocessen en het Internet of Things (IoT) met Oracle Integration Cloud en Oracle Internet of Things Cloud
  • Gebruik gebeurteniswachtrijen van Oracle GoldenGate of Oracle Transaction Manager for Microservices voor sourcing van microservicesgebeurtenissen of realtime invoering in Kafka en data lakes
  • Breng gedecentraliseerde ontwerppatronen op basis van domeinen naar uw servicemesh met Oracle Verrazzano, Helidon en Graal VM

 

3 essentiële kenmerken van een datamesh

Datamesh is niet alleen maar een nieuw modewoord in de technologie. Het is een nieuwe set principes, praktijken en technologische mogelijkheden die gegevens toegankelijker en vindbaarder maken. Het datameshconcept onderscheidt zich van eerdere generaties gegevensintegratiebenaderingen en -architecturen door de aanmoediging van een verschuiving van de gigantische, monolithische gegevensarchitecturen uit het verleden naar een moderne, gedistribueerde, gedecentraliseerde gegevensgestuurde architectuur van de toekomst. In de basis heeft het datameshconcept de volgende hoofdkenmerken:

1.Gegevensproductdenken

Een mentaliteitsverandering is de belangrijkste eerste stap naar een datamesh. De bereidheid om geleerde praktijken van innovatie te omarmen, is de springplank naar een succesvolle modernisering van de gegevensarchitectuur.

Deze geleerde praktijken zijn onder meer:

  • Ontwerpdenken: een bewezen methodologie voor het oplossen van "ongestructureerde problemen", toegepast op bedrijfsgegevensdomeinen voor het bouwen van fantastische gegevensproducten
  • Theorie van jobs-to-be-done: het toepassen van een klantgerichte innovatie en een resultaatgestuurd innovatieproces om ervoor te zorgen dat producten voor bedrijfsgegevens echte zakelijke problemen oplossen
fpo-01

Methodologieën voor ontwerpdenken bieden bewezen technieken die helpen om de organisatorische kokers te doorbreken die functieoverschrijdende innovatie vaak blokkeren. De theorie van jobs-to-be-done is de cruciale basis voor het ontwerpen van gegevensproducten die voldoen aan specifieke doelen van eindconsumenten, of voorzien in taken die moeten worden uitgevoerd. De theorie definieert het doel van het product.

Hoewel de gegevensproductbenadering aanvankelijk uit de datawetenschap kwam, wordt deze nu toegepast op alle aspecten van gegevensbeheer. In plaats van monolithische technologiearchitecturen te bouwen, is datamesh gericht op de gegevensgebruikers en de bedrijfsresultaten.

Gegevensproductdenken kan ook worden toegepast op andere gegevensarchitecturen, maar het is een essentieel onderdeel van een datamesh. Voor praktische voorbeelden van het toepassen van gegevensproductdenken kunt u de gedetailleerde analyse lezen die het team van Intuit schreef over hun ervaringen.

Gegevensproducten

Producten van elke soort, van ruwe grondstoffen tot artikelen in de lokale winkel, worden geproduceerd als activa van waarde, zijn bedoeld om te worden geconsumeerd en hebben een specifieke taak te vervullen. Gegevensproducten kunnen verschillende vormen aannemen, afhankelijk van het bedrijfsdomein of het probleem dat moet worden opgelost, en kunnen het volgende omvatten:

  • Analyses: historische/realtime rapporten en dashboards
  • Gegevenssets: gegevensverzamelingen in verschillende vormen/indelingen
  • Modellen: domeinobjecten, gegevensmodellen, functies voor machine learning (ML)
  • Algoritmen: ML-modellen, scorebepaling en bedrijfsregels
  • Gegevensservices en API's: documenten, payloads, onderwerpen, REST-API's en meer

Een gegevensproduct wordt gemaakt voor gebruik en is doorgaans eigendom van een partij buiten de IT. Er moeten aanvullende kenmerken worden bijgehouden, zoals:

  • Kaart van belanghebbenden: wie is de eigenaar van dit product en wie gebruikt het?
  • Verpakking en documentatie: hoe wordt het gebruikt? Wat voor etiket krijgt het?
  • Doel en waarde: wat is de impliciete/expliciete waarde van het product? Is er waardevermindering na verloop van tijd?
  • Kwaliteit en consistentie: wat zijn de KPI's en SLA's van het gebruik? Is het verifieerbaar?
  • Herkomst, levenscyclus en governance: is er vertrouwen in de gegevens en zijn ze verklaarbaar?

2.Gedecentraliseerde gegevensarchitectuur

Gedecentraliseerde gegevensarchitectuur

Gedecentraliseerde IT-systemen horen bij deze tijd, en met de opkomst van SaaS-applicaties en publieke cloudinfrastructuur (IaaS) is de decentralisatie van applicaties en gegevens niet meer weg te denken. Applicatiesoftwarearchitecturen stappen over van de oude gecentraliseerde monolieten naar gedistribueerde microservices (een servicemesh). De gegevensarchitectuur zal ook gaan decentraliseren. Daarbij worden gegevens meer verspreid over een grotere verscheidenheid aan fysieke locaties en over vele netwerken. We noemen dit een datamesh.

Wat is een mesh?

Een mesh is een netwerktopologie die een grote groep niet-hiërarchische nodes laat samenwerken.

Veel voorkomende technische voorbeelden:

  • WiFiMesh: veel nodes die samenwerken voor een betere dekking
  • ZWave/Zigbee: netwerken van energiezuinige smart home-apparaten
  • 5G-mesh: betrouwbaardere en veerkrachtigere telefoonverbindingen
  • Starlink: wereldwijd satellietbreedbandnetwerk
  • Servicemesh: een manier om uniforme controles te bieden voor gedecentraliseerde microservices (applicatiesoftware)

Datamesh is afgestemd op deze mesh-concepten en biedt een gedecentraliseerde manier om gegevens te verspreiden over virtuele/fysieke netwerken en over grote afstanden. Oude monolithische architecturen voor gegevensintegratie, zoals ETL en gegevensfederatietools, en nog recenter, openbare cloudservices zoals AWS Glue, vereisen een uiterst gecentraliseerde infrastructuur.

Een complete datameshoplossing moet kunnen functioneren in een multicloudkader, van on-premisesystemen en meerdere publieke clouds tot zelfs edge-netwerken.

Verspreide beveiliging

In een wereld waarin gegevens erg verspreid en gedecentraliseerd zijn, is de rol van informatiebeveiliging van het grootste belang. In tegenstelling tot sterk gecentraliseerde monolieten moeten verspreide systemen de activiteiten aansturen die nodig zijn om verschillende gebruikers te authenticeren en te autoriseren op verschillende toegangsniveaus. Vertrouwen veilig sturen over netwerken is moeilijk.

Enkele overwegingen zijn:

  • Versleuteling van inactieve gegevens: zoals gegevens/gebeurtenissen die naar de opslag worden overgebracht
  • Verspreide verificatie: voor services en gegevensopslag, zoals mTLS, certificaten, SSO, geheimopslag en gegevenskluizen
  • Versleuteling van actieve gegevens: zoals gegevens/gebeurtenissen die geen vaste plek hebben in de opslag
  • Identiteitsbeheer: LDAP/IAM-services, platformoverschrijdend
  • Verspreide autorisaties: voor service-eindpunten om gegevens te bewerken
    Bijvoorbeeld: Open Policy Agent (OPA) om policybeslissingspunt (PDP) te plaatsen in de container/K8S-cluster waar het microservice-eindpunt wordt verwerkt. LDAP/IAM kan elke service zijn die geschikt is voor JWT.
  • Deterministische maskering: om PII-gegevens betrouwbaar en consistent te verbergen

Beveiliging kan binnen elk IT-systeem moeilijk zijn, en het is nog moeilijker om een hoge mate van beveiliging te bieden binnen verspreide systemen. Dit is echter wel op te lossen.

Gedecentraliseerde gegevensdomeinen

Een kernprincipe van datamesh is het begrip verspreiding van eigendom en verantwoordelijkheid. Het wordt aanbevolen om het eigendom van gegevensproducten en gegevensdomeinen toe te vertrouwen aan de mensen in een organisatie die het dichtst bij de gegevens staan. In de praktijk kan dit worden afgestemd op de brongegevens (bijvoorbeeld ruwe gegevensbronnen, zoals de operationele registratiesystemen/applicaties) of op de analytische gegevens (bijvoorbeeld typische samengestelde of geaggregeerde gegevens die zijn geformatteerd voor eenvoudig gebruik door de gegevensconsumenten). In beide gevallen zijn de producenten en de consumenten van de gegevens vaak eerder afgestemd op bedrijfseenheden dan op IT-organisaties.

Bij oude manieren om gegevensdomeinen te organiseren gaat het vaak mis bij het afstemmen op de technologische oplossingen, zoals ETL-tools, data warehouses, data lakes of de structurele organisatie van een bedrijf (human resources, marketing en andere afdelingen). Voor een bepaald bedrijfsprobleem zijn de gegevensdomeinen echter vaak het best afgestemd op de omvang van het probleem dat wordt opgelost, de context van een bepaald bedrijfsproces of de groep applicaties op een specifiek probleemgebied. In grote organisaties gaan deze gegevensdomeinen gewoonlijk verder dan de interne organisaties en technologische voetafdrukken.

De functionele decompositie van gegevensdomeinen krijgt een hoge prioriteit in het gegevensnetwerk. Diverse gegevensdecompositiemethodologieën voor domeinmodellering kunnen worden toegepast op de datamesharchitectuur, waaronder klassieke datawarehouse-modellering (zoals Kimball en Inmon) of data vault-modellering, maar de meest gebruikte methodologie die momenteel wordt uitgeprobeerd in datamesharchitectuur is domain-driven design (DDD). De DDD-benadering kwam voort uit functionele decompositie van microservices en wordt nu toegepast in een datameshcontext.

3.Dynamische actieve gegevens

Een belangrijk gebied waarop Oracle een bijdrage heeft geleverd aan de discussie over datameshnetwerken is het vergroten van het belang van actieve gegevens als een belangrijk onderdeel van een moderne datamesh. Actieve gegevens zijn essentieel om datamesh uit de oude wereld van monolithische, gecentraliseerde batchverwerking te halen. De mogelijkheden van actieve gegevens zijn een antwoord op verschillende kernvragen over datamesh, zoals:

  • Hoe kunnen we realtime toegang krijgen tot op bronnen afgestemde gegevensproducten?
  • Welke tools kunnen vertrouwde gegevenstransacties verspreiden over een fysiek gedecentraliseerde datamesh?
  • Wat kan ik gebruiken om gegevensgebeurtenissen beschikbaar te maken als gegevensproduct-API's?
  • Hoe kan ik voor analytische gegevensproducten die voortdurend moeten worden bijgewerkt, afstemmen op gegevensdomeinen en zorgen voor vertrouwen en geldigheid?

Deze vragen zijn niet slechts "uitvoeringsdetails". Ze zijn van groot belang voor de gegevensarchitectuur zelf. Bij een domeingestuurd ontwerp voor statische gegevens worden andere technieken en hulpmiddelen gebruikt dan bij een dynamisch proces met actieve gegevens van hetzelfde ontwerp. In dynamische gegevensarchitecturen is het gegevensgrootboek bijvoorbeeld de centrale bron voor gegevensgebeurtenissen.

Gebeurtenisgestuurde gegevensgrootboeken

Gebeurtenisgestuurde gegevensgrootboeken

Grootboeken zijn een fundamenteel onderdeel van een goed werkende verspreide gegevensarchitectuur. Net als bij een kasboek worden in een gegevensgrootboek de transacties geregistreerd op het moment dat ze plaatsvinden.

Als we het grootboek verspreiden, worden de gegevensgebeurtenissen "opnieuw uitvoerbaar" op elke locatie. Sommige grootboeken lijken een beetje op een boordrecorder van een vliegtuig die wordt gebruikt voor hoge beschikbaarheid en noodherstel.

In tegenstelling tot gecentraliseerde en monolithische datastores, zijn verspreide grootboeken speciaal gebouwd om atomische gebeurtenissen en/of transacties bij te houden die in andere (externe) systemen plaatsvinden.

Een datamesh is niet slechts één type grootboek. Afhankelijk van de gebruiksscenario's en vereisten kan een datamesh gebruikmaken van verschillende soorten gebeurtenisgestuurde gegevensgrootboeken, waaronder:

  • Grootboek voor activiteiten voor algemene doeleinden, zoals Kafka of Pulsar
  • Gebeurtenisgestuurd gegevensgrootboek: verspreide CDC/replicatietools
  • Berichtenmiddleware, inclusief ESB, MQ, JMS en AQ
  • Blockchaingrootboek: voor veilige, onveranderbare transacties met meerdere partijen

Samen kunnen deze grootboeken fungeren als een soort duurzaam gebeurtenissenlog voor de hele onderneming, met een lopende lijst van gegevensgebeurtenissen op boekhoudsystemen en analysesystemen.

Meertalige gegevensstromen

Meertalige gegevensstromen

Meertalige gegevensstromen komen vaker voor dan ooit. Ze zijn verschillend qua type gebeurtenis, payloads en transactiesemantiek. Een datamesh moet de nodige stroomtypes ondersteunen voor een verscheidenheid aan bedrijfsgegevensworkloads.

Eenvoudige gebeurtenissen:
Base64/JSON, onregelmatige, schemaloze gebeurtenissen
- Onregelmatige telemetrie, schaarse gebeurtenissen

Basisgebeurtenissen voor het loggen van apps/Internet of Things (IoT):
- JSON/Protobuf, kan een schema hebben
- MQTT, IoT-specifieke protocollen

Bedrijfsprocesgebeurtenissen van applicaties:
- SOAP/REST-gebeurtenissen - XML/XSD, JSON
- B2B-uitwisselingsprotocollen en standaarden

Gegevensgebeurtenissen/transacties:
- Logische wijzigingsrecords: LCR, SCN, URID
- Consistente grenzen, vastleggingen versus bewerkingen

Stroomgegevensverwerking

Stroomverwerking is de manier waarop gegevens worden gemanipuleerd binnen een gebeurtenissenstroom. In tegenstelling tot "lambda-functies" houdt de stroomverwerker de status van gegevensstromen binnen een bepaald tijdsvenster en kan hij veel geavanceerdere analytische query's op de gegevens toepassen.

    Basisgegevens filteren:

    • Drempels, waarschuwingen en telemetriebewaking

    Eenvoudige ETL:

    • RegEx-functies, wiskunde/logica en aaneenschakeling
    • Record-by-record, vervangingen en maskeringen

CEP en complexe ETL:

  • Complexe gebeurtenisverwerking (CEP)
  • DML-verwerking (ACID) en tupels
  • Aggregaties, referentiecodes, complexe joins

Stroomanalyses:

  • Analyse van tijdreeksen en aangepaste tijdvensters
  • Geospatiaal, machine learning en geïntegreerde AI

Andere belangrijke kenmerken en principes

Een datamesh heeft natuurlijk meer dan drie kenmerken. We hebben ons gericht op de drie hierboven genoemde aspecten als een manier om aandacht te vestigen op kenmerken waarvan Oracle denkt dat ze de nieuwe en unieke aspecten van de opkomende moderne datameshmethode zijn.

Andere belangrijke kenmerken van de datamesh zijn:

  • Selfservicetools: datamesh omarmt de selfservicetrend van gegevensbeheer, waarbij ontwikkelaars steeds meer op het niveau van de gegevenseigenaars moeten zitten
  • Governance van gegevens: datamesh doet ook mee met de reeds lang bestaande trend naar een meer geformaliseerd federatief governancemodel, zoals dat al vele jaren succesvol wordt uitgevoerd door chief data officers, data stewards en leveranciers van gegevenscatalogi.
  • Bruikbaarheid van gegevens: als we ons verdiepen in de beginselen van datamesh moet er heel wat fundamenteel werk worden verricht om ervoor te zorgen dat de gegevensproducten bruikbaar zijn. Bij de beginselen voor gegevensproducten zal het gaan om gegevens die waardevol, bruikbaar en deelbaar zijn.

 

7 gebruiksscenario's voor datamesh

Een succesvolle datamesh voldoet aan gebruikscriteria voor zowel operationele als analytische gegevensdomeinen. De volgende zeven gebruiksscenario's illustreren de uiteenlopende mogelijkheden die een datamesh biedt voor ondernemingsgegevens.

Door realtime operationele gegevens en analyses te integreren, kunnen bedrijven betere operationele en strategische beslissingen nemen.

MIT Sloan School of Management

1. Modernisering van applicaties

Naast de 'lift and shift'-migraties van monolithische gegevensarchitecturen naar de cloud willen veel organisaties ook hun gecentraliseerde applicaties uit het verleden buiten gebruik stellen en overstappen op een modernere architectuur voor microservicesapplicaties.

Datamesh voor monolietmigraties
Datamesh voor monolietmigraties
Wurgvijgpatroon voor monolietdecompositie en gefaseerde migraties
Wurgvijgpatroon voor monolietdecompositie en gefaseerde migraties

Maar monolieten van legacy-applicaties zijn meestal afhankelijk van enorme databases, waardoor de vraag rijst hoe het migratieplan moet worden gefaseerd om verstoring, risico's en kosten te beperken. Een datamesh kan een belangrijke operationele IT-mogelijkheid bieden voor klanten die gefaseerd overstappen van een monolithische naar een mesharchitectuur. Bijvoorbeeld:

  • Subdomeinoverzetting van databasetransacties, zoals het filteren van gegevens op 'gebonden context'
  • Bidirectionele transactiereplicatie voor gefaseerde migraties
  • Platformoverschrijdende synchronisatie, zoals van mainframe naar DBaaS

In het woordenboek van microservices-architecten is deze aanpak het gebruik van een bidirectionele transacties-putbox om het wurgvijgmigratiepatroon mogelijk te maken, één gebonden context per keer.

2. Beschikbaarheid en continuïteit van gegevens

Datamesh voor geografisch verspreide gegevensgebeurtenissen
Datamesh voor geografisch verspreide gegevensgebeurtenissen

Bedrijfskritieke applicaties vereisen zeer hoge KPI's en SLA's rond veerkracht en continuïteit. Ongeacht of deze applicaties monolithisch of microservices zijn of iets ertussenin, ze moeten continue functioneren!

Voor bedrijfskritieke systemen is een verspreid gegevensmodel met uiteindelijke consistentie doorgaans niet acceptabel. Deze applicaties moeten echter in veel datacenters werken. Hiermee wordt de vraag voor bedrijfscontinuïteit gesteld: Hoe kan ik mijn apps in meerdere datacenters uitvoeren en toch de juiste en consistente gegevens garanderen?

Ongeacht of de monolithische architecturen gebruik maken van 'sharded datasets' of de microservices worden opgezet voor site-overschrijdende hoge beschikbaarheid, de datamesh biedt correcte, snelle gegevens op elke afstand.

Een datamesh kan de basis vormen voor gedecentraliseerde, maar toch 100% correcte data op verschillende sites. Bijvoorbeeld:

  • Logische transacties met zeer lage latentie (platformoverschrijdend)
  • ACID-compatibele garanties voor correcte gegevens
  • Multi-actieve, bidirectionele en conflictoplossing

3. Sourcing van gebeurtenissen en transactie-outbox

Gebeurtenisgebaseerde interop voor verschillende apps, microservices en databases
Gebeurtenisgebaseerde interop voor verschillende apps, microservices en databases
Generiek patroon voor transactie-outbox
Generiek patroon voor transactie-outbox (NB: er zijn datameshvarianten/optimalisaties voor dit patroon).

Een modern, servicemesh-achtig platform gebruikt gebeurtenissen voor gegevensuitwisseling. In plaats van afhankelijk te zijn van batchverwerking in de datatier, worden de payloads van de gegevens continu verwerkt wanneer zich gebeurtenissen voordoen in de toepassing of de datastore.

Voor sommige architecturen moeten microservices gegevens met elkaar uitwisselen. Andere patronen vereisen uitwisseling tussen monolithische toepassingen of datastores. Hierbij staat de volgende vraag centraal: "Hoe kan ik betrouwbaar microservicegegevenspayloads uitwisselen tussen mijn apps en datastores?"

Een datamesh kan de basistechnologie leveren voor gegevensuitwisseling waarbij microservices centraal staan. Bijvoorbeeld:

  • Microservice naar microservice binnen context
  • Microservice naar microservice contextoverschrijdend
  • Monoliet van/naar microservice

Microservicepatronen, zoals gebeurtenissourcing, CQRS en transactie-outbox zijn algemeen aanvaarde oplossingen. Een datamesh biedt de tools en frameworks om deze patronen op schaal herhaalbaar en betrouwbaar te maken.

4. Gebeurtenisgestuurde integratie

Naast ontwerppatronen voor microservices breidt de behoefte aan bedrijfsintegratie zich uit tot andere IT-systemen, zoals databases, bedrijfsprocessen, applicaties en alle soorten fysieke apparaten. Een datamesh vormt de basis voor de integratie van actieve gegevens.

Actieve gegevens zijn meestal gebeurtenisgestuurd. Een gebruikersactie, een apparaatgebeurtenis, een processtap of een datastoredoorvoering kunnen allemaal een gebeurtenis met een gegevenstoewijzing teweegbrengen. Deze gegevenspayloads zijn van cruciaal belang voor de integratie van Internet of Things (IoT)-systemen, bedrijfsprocessen en databases, datawarehouses en data lakes.

Gebeurtenisgestuurde integratie

Een datamesh levert de basistechnologie voor realtime integratie in de hele onderneming. Bijvoorbeeld:

  • Apparaatgebeurtenissen uit de echte wereld verbinden met IT-systemen
  • Bedrijfsprocessen integreren in alle ERP-systemen
  • Operationele databases afstemmen op analytische gegevensopslag

Grote organisaties hebben normaal gesproken een mix van oude en nieuwe systemen, monolieten en microservices, operationele en analytische datastores. Een datamesh kan deze middelen van verschillende bedrijfs- en datadomeinen samenbrengen.

5. Stroominvoer (voor analyse)

Gebruik van een datamesh voor gemeenschappelijke gegevensinvoer over data lakes, datawarehouses en datamarts
Gebruik van een datamesh voor gemeenschappelijke gegevensinvoer over data lakes, datawarehouses en datamarts

Analytische gegevensopslag kan datamarts, datawarehouses, OLAP-kubussen, datalakes en datalakehouse-technologieën zijn.

In het algemeen zijn er slechts twee manieren om gegevens in deze analytische datastores in te voeren:

  • Batch-/microbatch laden: in een tijdsplanner
  • Stroominvoer: onafhankelijk laden van gegevensgebeurtenissen

Een datamesh vormt de basis voor een invoermogelijkheid voor stroomgegevens. Bijvoorbeeld:

  • Gegevensgebeurtenissen uit databases of datastores
  • Apparaatgebeurtenissen van fysieke apparaattelemetrie
  • Registratie van applicatiegebeurtenissen of bedrijfstransacties

Door gebeurtenissen per stroom in te voeren, kan de impact op de bronsystemen worden beperkt, kan de betrouwbaarheid van de gegevens worden verbeterd (belangrijk voor datawetenschap) en kunnen realtime analyses worden uitgevoerd.

6. Stroomgegevenspijplijnen

Een datamesh kan stroompijplijnen creëren, uitvoeren en beheren binnen een data lake
Een datamesh kan stroompijplijnen creëren, uitvoeren en beheren binnen een data lake

Zodra de gegevens in de analytische datastores zijn ingevoerd, zijn er gegevenspijplijnen nodig om de gegevens voor te bereiden en te transformeren in verschillende gegevensfasen of -zones. Dit proces van verfijning van gegevens is vaak nodig voor de downstream analytische gegevensproducten.

Een datanetwerk kan een onafhankelijk bestuurde gegevenspijplijnlaag bieden die werkt met de analytische datastores, en de volgende kerndiensten levert:

  • Selfservicegegevensdetectie en -voorbereiding
  • Governance van gegevensresources tussen domeinen
  • Gegevensvoorbereiding en -transformatie in vereiste gegevensproductindelingen
  • Gegevensverificatie op basis van beleid dat zorgt voor consistentie

Deze gegevenspijplijnen moeten kunnen werken in verschillende fysieke datastores (zoals marts, warehouses of lakes) of als een "pushdown datastroom" binnen analytische gegevensplatforms die stroomgegevens ondersteunen, zoals Apache Spark en andere data lakehouse-technologieën.

7 Stroomanalyses

Gebeurtenissen van alle soorten (IoT, DB, etc.) kunnen in realtime stromen worden geanalyseerd
Gebeurtenissen van alle soorten kunnen in realtime stromen worden geanalyseerd

Gebeurtenissen vinden continu plaats. De analyse van gebeurtenissen in een stroom kan van cruciaal belang zijn voor inzicht in wat er elk moment gebeurt.

Dit soort op tijdreeksen gebaseerde analyse van realtime gebeurtenisstromen kan belangrijk zijn voor werkelijke IoT-apparaatgegevens en voor inzicht in wat er gebeurt in uw IT-datacenters of in financiële transacties, zoals fraudebewaking.

Een volledig functionele datamesh bevat de basismogelijkheden voor het analyseren van allerlei soorten gebeurtenissen in verschillende tijdvensters. Bijvoorbeeld:

  • Eenvoudige analyse van gebeurtenisstromen (webgebeurtenissen)
  • Bewaking van bedrijfsactiviteiten (SOAP/REST-gebeurtenissen)
  • Complexe verwerking van gebeurtenissen (correlatie van diverse stromen)
  • Analyse van gegevensgebeurtenissen (voor DB/ACID-transacties)

Net als gegevenspijplijnen kunnen de stroomanalyses worden uitgevoerd binnen de gevestigde data lakehouse-infrastructuur, of afzonderlijk, als cloudnative diensten.

Behaal maximale waarde met een gemeenschappelijke mesh in het hele gegevensdomein

Koplopers op het gebied van gegevensintegratie streven naar realtime operationele en analytische integratie vanuit diverse veerkrachtige datastores. Er is onophoudelijk en snel geïnnoveerd naarmate de gegevensarchitectuur zich ontwikkelde op het gebied van stroomanalyses. Operationele hoge beschikbaarheid heeft geleid tot realtime analyses en automatisering van data engineering vereenvoudigt de voorbereiding van gegevens, waardoor datawetenschappers en analisten met selfservicetools hun werk kunnen doen.

Overzicht van gebruiksscenario's voor datamesh

Overzicht van gebruiksscenario's voor datamesh

Bouw een operationele en analytische mesh voor het hele gegevensgebied
Als al deze gegevensbeheerfuncties in een geïntegreerde architectuur werken, heeft dat invloed op elke gegevensconsument. Een datamesh helpt uw wereldwijde registratie- en betrokkenheidsystemen te verbeteren om betrouwbaar in realtime te werken. Hierdoor worden realtime gegevens beter afgestemd op managers van de branche, datawetenschappers en uw klanten. Het vereenvoudigt ook het gegevensbeheer voor uw microserviceapplicaties van de volgende generatie. Met behulp van moderne analytische methoden en tools kunnen uw eindgebruikers, analisten en datawetenschappers nog beter inspelen op de vraag van de klant en zo de concurrentie voor blijven. Zie de doelen en resultaten van Intuit voor een goed onderbouwd voorbeeld.

Profiteer van een datamesh op puntprojecten
Het is belangrijk om bij uw nieuwe mindset en operationeel model van gegevensproducten ervaring op te doen in elk gebied van deze technologie. Tijdens uw datameshreis kunt u aanzienlijke voordelen behalen door uw snelle gegevensarchitectuur te ontwikkelen op het gebied van stroomanalyses, door uw operationele investeringen in hoge beschikbaarheid te benutten voor realtime analyses en door realtime selfservice-analyses aan te bieden aan uw datawetenschappers en -analisten.

Vergelijken en tegen elkaar afzetten

  Gegevensmateriaal Integratie van applicatieontwikkeling Analytische datastore
  Datamesh Data-integratie Metacatalogus Microservices Berichten versturen Data lakehouse Verspreide DW
Personen, processen en methoden:
Focus op gegevensproducten
beschikbaar
beschikbaar
beschikbaar
1/4 aanbod
1/4 aanbod
3/4 aanbod
3/4 aanbod
Technische architectuurkenmerken:
Verspreide architectuur
beschikbaar
1/4 aanbod
3/4 aanbod
beschikbaar
beschikbaar
1/4 aanbod
3/4 aanbod
Gebeurtenisgestuurde grootboeken
beschikbaar
niet beschikbaar
1/4 aanbod
beschikbaar
beschikbaar
1/4 aanbod
1/4 aanbod
ACID-ondersteuning
beschikbaar
beschikbaar
niet beschikbaar
niet beschikbaar
3/4 aanbod
3/4 aanbod
beschikbaar
Stroomgericht
beschikbaar
1/4 aanbod
niet beschikbaar
niet beschikbaar
1/4 aanbod
3/4 aanbod
1/4 aanbod
Focus op analytische gegevens
beschikbaar
beschikbaar
beschikbaar
niet beschikbaar
niet beschikbaar
beschikbaar
beschikbaar
Focus op operationele gegevens
beschikbaar
1/4 aanbod
beschikbaar
beschikbaar
beschikbaar
niet beschikbaar
niet beschikbaar
Fysieke en logische mesh
beschikbaar
beschikbaar
niet beschikbaar
1/4 aanbod
3/4 aanbod
3/4 aanbod
1/4 aanbod

Bedrijfsresultaten


Algemene voordelen

Snellere, gegevensgestuurde innovatiecycli

Lagere kosten voor bedrijfskritische gegevensbewerkingen

Operationele resultaten

Multicloud-gegevensliquiditeit:
gegevenskapitaal vrij laten stromen

Realtime gegevens delen
: Ops-to-Ops en Ops-to-Analytics

Edge-gegevensservices op basis van locatie:
IRL-apparaat/gegevensgebeurtenissen op elkaar afstemmen

Gegevensuitwisseling over vertrouwde microservices:
sourcing van gebeurtenissen met correcte gegevens
- DataOps en CI/CD voor gegevens

Ononderbroken continuïteit:
99,999% SLA's voor up-time
- Cloudmigraties

Analytische resultaten

Gegevensproducten automatiseren en vereenvoudigen
: gegevenssets met meerdere modellen

Analyse van tijdreeksgegevens
: verschillen/gewijzigde records
: betrouwbaarheid per gebeurtenis

Volledige kopieën van gegevens voor operationele datastore overbodig maken
: op log gebaseerde grootboeken en pijplijnen

Verspreide data lakes en datawarehouses
: hybride/multicloud/wereldwijd
- Streamingintegratie/ETL

Voorspellende analyse
: monetisering van gegevens, nieuwe dataservices te koop

Alles samenbrengen

Digitale transformatie is heel moeilijk, en helaas zal het bij de meeste bedrijven niet helemaal lukken. In de loop der jaren worden technologie, softwareontwerp en gegevensarchitectuur steeds meer verspreid naarmate de moderne technieken steeds minder gecentraliseerd en monolithisch zijn.

Datamesh is een nieuw concept voor gegevens: een verschuiving naar sterk verspreide en realtime gegevensgebeurtenissen, in tegenstelling tot monolithische, gecentraliseerde en batchgewijze gegevensverwerking. In de kern is datamesh een culturele mentaliteitsverandering waarbij de behoeften van de gegevensconsumenten voorop wordt gesteld. Het is ook een ware technologische verschuiving, waarbij de platforms en diensten die een gedecentraliseerde gegevensarchitectuur mogelijk maken centraal staan.

Gebruiksscenario's voor datamesh omvatten zowel operationele als analytische gegevens, wat een belangrijk verschil is tussen conventionele data lakes/lakehouses en datawarehouses. Deze afstemming van operationele en analytische gegevensdomeinen is een kritieke factor voor de behoefte aan meer selfservice voor de gegevensconsument. Moderne gegevensplatformtechnologie kan de tussenpersoon wegnemen door gegevensproducenten rechtstreeks met gegevensconsumenten te verbinden.

Oracle is al lang de marktleider in essentiële gegevensoplossingen en heeft enkele van de modernste functies ontwikkeld voor het leveren van betrouwbare gegevenstools:

  • Generation 2 Cloud-infrastructuur van Oracle met meer dan 33 actieve regio's
  • Database voor meerdere modellen voor veranderende gegevensproducten
  • Gebeurtenisgestuurd gegevensgrootboek op basis van microservices voor alle datastores
  • Multicloud-stroomverwerking voor realtime vertrouwde gegevens
  • API-platform, moderne AppDev en selfservice-tools
  • Analyses, gegevensvisualisatie en cloud-native datawetenschap