Nie znaleziono wyników

Twoje wyszukiwanie nie dało żadnych wyników.

Zalecamy wypróbowanie następujących rozwiązań, aby znaleźć to, czego szukasz:

  • Sprawdź pisownię wyszukiwania słowa kluczowego.
  • Użyj synonimów dla wpisanego słowa kluczowego, na przykład spróbuj wpisać „aplikacja” zamiast „oprogramowanie”.
  • Rozpocznij nowe wyszukiwanie.
Skontaktuj się z nami Zaloguj się do Oracle Cloud

Enterprise Data Mesh

Solutions, use cases, and case studies


Forrester Wave: Struktura danych przedsiębiorstwa, Q2 2020

Dowiedz się, dlaczego firma Oracle została uznana za lidera i uzyskała najwyższą ocenę w kategorii „Strategia”.

Co to jest siatka danych?

Siatka danych to gorący temat w dziedzinie oprogramowania korporacyjnego i stanowi nowe podejście do myślenia o danych w oparciu o rozproszoną architekturę do zarządzania danymi. Chodzi o to, aby dane były bardziej dostępne dla użytkowników biznesowych dzięki bezpośredniemu połączeniu właścicieli danych, producentów danych i konsumentów danych. Siatka danych ma na celu poprawę wyników biznesowych rozwiązań ukierunkowanych na dane, a także przyspieszenie wdrażania nowoczesnych architektur danych.

Z biznesowego punktu widzenia siatka danych wprowadza nowe pomysły dotyczące „myślenia na temat danych jako produktach”. Innymi słowy, jest to myślenie o danych jako o produkcie, który spełnia swoje „zadanie do wykonania”, na przykład w celu usprawnienia procesu podejmowania decyzji, pomocy w wykrywaniu oszustw lub ostrzegania przedsiębiorstwa o zmianach w warunkach łańcucha dostaw. Aby tworzyć produkty o wysokiej wartości, firmy muszą uwzględnić zmiany w kulturze i sposobie myślenia i zaangażować się w bardziej wielofunkcyjne podejście do modelowania domen biznesowych.

Od strony technologicznej, Oracle postrzega siatki danych skupiając się na trzech ważnych nowych obszarach tematycznych poświęconych tej architekturze:

  1. Narzędzia dostarczające produkty w postaci danych jako kolekcje danych, zdarzenia danych i analizy danych
  2. Rozproszone, zdecentralizowane architektury danych, które pomagają organizacjom, które odchodzą od architektur monolitycznych, ku przetwarzaniu w wielu rozwiązaniach chmurowych i chmurach hybrydowych lub organizacjom, które muszą działać w sposób globalnie zdecentralizowany
  3. Przetwarzanie danych w czasie trwania procesu może być zastosowane w przypadku organizacji, które nie mogą korzystać wyłącznie ze scentralizowanych, statycznych danych wsadowych, i które zamiast tego potrzebują przejść na oparte na zdarzeniach zestawy danych i potoki strumieniowe w celu przetwarzania danych w czasie rzeczywistym, co zapewnia bardziej trafne analizy

Inne ważne kwestie, takie jak narzędzia umożliwiające samoobsługę dla użytkowników nietechnicznych i silne modele odgórnego zarządzania danymi, są równie ważne dla architektury siatki danych, tak jak dla innych, bardziej scentralizowanych i klasycznych metod zarządzania danymi.

Nowa koncepcja danych

Obejrzyj, jak Zhamak Dehghani objaśnia koncept siatki danych (34:51)

Strategia oparta na siatce danych to zmiana podejścia do postrzegania danych jako produktu. Siatka danych wprowadza zmiany organizacyjne i procesowe, których przedsiębiorstwa będą potrzebowały, aby zarządzać danymi jako materialnym kapitałem przedsiębiorstwa. Perspektywa Oracle dotycząca architektury siatek danych wymaga odpowiedniego dostosowania we wszystkich organizacyjnych i analitycznych domenach danych.

Siatka danych ma na celu bezpośrednie powiązanie producentów danych z użytkownikami biznesowymi oraz, w możliwie największym stopniu, usunięcie pośrednika IT z projektów i procesów, które przyjmują, przygotowują i przekształcają zasoby danych.

Firma Oracle skupiła się na siatce danych, udostępniając naszym klientom platformę, która spełnia te nowe wymagania technologiczne. Obejmuje to narzędzia dla produktów danych, zdecentralizowane architektury sterowane zdarzeniami oraz wzorce strumieniowania przesyłanych danych. W przypadku modelowania domen produktów danych i innych problemów socjotechnicznych, Oracle wykorzystuje wyniki prac prowadzonych przez lidera w dziedzinie technologii siatki danych, Zhamaka Dehghaniego.

Zalety zastosowania siatki danych

Inwestycja w technologię siatkę danych może przynieść imponujące korzyści, takie jak:

  • Uzyskanie pełnej jasności co do wartości danych poprzez zastosowanie najlepszych praktyk dotyczących analizy danych jako produktu.
  • Uzyskanie dostępności danych operacyjnych (PDF) na poziomie ponad 99,999% przy użyciu potoków danych opartych na mikrousługach, zapewniających konsolidację danych i ich migrację.
  • Uzyskanie 10 razy szybszych cykli innowacji, eliminując ręczny, zorientowany na przetwarzanie wsadowe proces ETL i ciągłą transformację oraz ładowanie (CTL).
  • Zmniejszenie o ponad 70% kosztów inżynierii danych, korzyści w zakresie CI/CD, uzyskanie narzędzia niewymagającego programowania przetwarzania danych oraz samoobsługowego oraz zwinnego programowania.

Siatka danych stanowi sposób myślenia i o wiele więcej

Siatka danych to koncept, który jest nadal na wczesnym etapie rozwoju na rynku. Pojawiają się więc różnorodne treści marketingowe, które twierdzą, że konkretne rozwiązanie jest „siecią danych”, ale często te rozwiązania nie odpowiadają podstawowym podejściom lub zasadom.

Prawdziwa siatka danych to sposób myślenia, model organizacyjny i podejście do architektury danych przedsiębiorstwa, które obejmuje narzędzia pomocnicze. Rozwiązanie oparte na siatce danych powinno uwzględniać myślenie o danych jako produkcie, zdecentralizowaną architekturę danych, własność danych zorientowaną na domenę, rozproszony dostęp do danych w trakcie trwania procesu, samoobsługowy dostęp i silne zarządzanie danymi.

Siatka danych nie jest:

  • Produktem od jednego dostawcy: nie ma pojedynczego produktu siatki danych.
  • Jeziorem danych ani hurtownią danych: dane mogą stanowić część większej siatki danych, która obejmuje wiele jezior, stawów i systemów operacyjnych danych..
  • Katalogiem ani wykresem: siatka danych wymaga fizycznej implementacji.
  • Jednorazowym projektem konsultingowym: siatka danych to trwający projekt, a nie pojedyncze zadanie.
  • Produktem do samodzielnej analizy: klasyczne, samoobsługowe analizy, przygotowywanie danych i porządkowanie danych mogą stanowić część siatki danych, a także innych architektur danych.
  • Strukturą danych: pomimo że jest powiązana koncepcyjnie, koncepcja struktury danych obejmuje szerzej wiele różnych stylów integracji i zarządzania danymi, podczas gdy siatka danych jest bardziej powiązana z decentralizacją i wzorcami projektowymi opartymi na domenie.

Forrester Wave nagrodziła firmę Oracle tytułem lidera w raporcie Korporacyjna architektura Data Fabric, Q2 2020

Dlaczego warto zastosować siatkę danych?

Smutna prawda jest taka, że monolityczne architektury danych stosowane dotychczas są kłopotliwe, kosztowne i nieelastyczne. Z biegiem lat staje się jasne, że większość czasu i kosztów związanych z cyfrową platformą biznesową, począwszy od zastosowań po analizę jest związana z integracją. W rezultacie większość inicjatyw opartych na platformie kończy się niepowodzeniem.

Pomimo tego, że siatka danych nie rozwiąże problemów związanych ze scentralizowanymni, monolitycznymi architekturami danych, zasady, praktyki i technologie strategii siatki danych są zaprojektowane w celu rozwiązania niektórych pilnych i nierozwiązanych celów modernizacji w ramach inicjatyw biznesowych opartych na danych.

Do trendów technologicznych, które doprowadziły do powstania siatki danych jako rozwiązania, należą:

Aby uzyskać więcej informacji, dlaczego siatka danych jest dzisiaj potrzebna, przeczytaj oryginalny dokument Zhamaka Dehghaniego z 2019 roku: Jak przenieść się poza monolityczne jezioro danych do rozproszonej siatki danych.

Definiowanie siatki danych

Zdecentralizowana strategia stojąca za siatką danych ma na celu traktowanie danych jako produktu poprzez tworzenie samoobsługowej infrastruktury danych, aby dane były bardziej dostępne dla użytkowników biznesowych.

Skupienie się na wynikach

Myślenie o danych w kategoriach produktów
  • Zmiana sposobu myślenia na punkt widzenia konsumenta danych
  • Właściciele domen danych są odpowiedzialni za wskaźniki KPI/umowy SLA dotyczące danych jako produkty
Zgodność operacji i analiz
  • Ta sama domena danych i semantyka technologii siatki dla każdego rozwiązania
  • Koniec z „przerzucaniem się danymi między zespołami”
Dane w trakcie procesu
  • Rejestruj zdarzenia dotyczące danych w czasie rzeczywistym bezpośrednio z systemów danych i uruchom dostęp do systemów samoobsługowych w celu dostarczenia danych tam, gdzie jest to potrzebne
  • Zasadnicza funkcja umożliwiająca wprowadzanie zdecentralizowanych danych i danych w postaci produktu opartych na danych źródłowych

Rezygnuje z monolitycznej architektury IT

Zdecentralizowana architektura
  • Architektura stworzona z myślą o zdecentralizowanych danych, usługach i rozwiązaniach w chmurze
Zbiory danych oparte na zdarzeniach
  • Zaprojektowane z myślą o obsłudze wszystkich rodzajów zdarzeń, formatów i złożoności
Potoki danych oparte na strumieniowaniu
  • Domyślne przetwarzanie strumieni, przetwarzanie programów wsadowych wg wyjątku
Samoobsługa, zarządzana platforma
  • Stworzone, aby wspomagać programistów i bezpośrednio łączyć konsumentów danych z producentami danych
  • Wbudowane zabezpieczenia, weryfikacja, świadectwo pochodzenia i przejrzystość

Funkcje Oracle napędzające siatkę danych

Gdy teoria przenosi się do praktyki, konieczne jest wdrożenie rozwiązań klasy Enterprise dla danych o krytycznym znaczeniu. Oracle może zaoferować szereg zaufanych rozwiązań, które wzmocnią siatkę danych przedsiębiorstwa.

Tworzenie i udostępnianie danych w postaci produktu

  • Wielomodelowe gromadzenie danych przy użyciu konwergentnej bazy danych Oracle, zapewnianie możliwości zmiany wariantu produktów przetwarzających dane w formatach wymaganych przez konsumentów
  • Samoobsługowe produkty w formie danych w postaci aplikacji lub interfejsów API, wykorzystujące Oracle APEX Application Development i Oracle REST Data Services do uzyskiwania łatwego dostępu i udostępniania wszystkich danych
  • Pojedynczy punkt dostępu dla zapytań SQL lub wirtualizacji danych za pomocą Oracle Cloud SQL i Big Data SQL
  • Produkty do zarządzania danymi przeznaczone do samouczenia się maszyn z wykorzystaniem platformy Oracle do analizy danych, usługi Oracle Cloud Infrastructure (OCI) Data Catalog oraz chmurowej platformy danych Oracle do obsługi repozytoriów w postaci jezior danych
  • Dane w postaci produktów jako zdarzenia w czasie rzeczywistym, alarmy o danych i usługi zdarzeń surowych danych dzięki Oracle Stream Analytics
  • Dostosowane do potrzeb klientów, samoobsługowe produkty danych w wszechstronnym rozwiązaniu Oracle Analytics Cloud

Obsługa zdecentralizowanej architektury danych

  • Elastyczne CI/CD w formie siatki usług dla kontenerów danych korzystających z osadzonych baz danych Oracle z Kubernetes, Docker lub danymi chmurowymi z Autonomous Database
  • Synchronizacja danych w wielu regionach, wielu chmurach i chmurach hybrydowych z mikrousługami Oracle GoldenGate i Veridata, co zapewnia zaufaną strukturę transakcji typu aktywny-aktywny
  • Korzystaj z danych z większości aplikacji, procesów biznesowych i technologii Internet of Things (IoT) przy użyciu usług Oracle Integration Cloud i Oracle Internet of Things Cloud.
  • Użyj kolejek zdarzeń z Oracle GoldenGate lub Oracle Transaction Manager for Microservices do pozyskiwania zdarzeń z mikrousług lub ich importowania w czasie rzeczywistym do systemu Kafka i jezior danych
  • Dostosuj zdecentralizowane wzorce projektowe, sterowane domenami, korzystając z Oracle Verrazzano, Helidon i Graal VM

 

3 kluczowe atrybuty siatki danych

Siatka danych to coś więcej niż tylko nowy termin techniczny. Nowy zbiór zasad, praktyk i możliwości technologicznych sprawia, że dane są bardziej dostępne i łatwe w wyszukaniu. Koncepcja siatki danych odróżnia się od poprzednich generacji podejść do integracji i architektur danych, zachęcając do odejścia od gigantycznych, monolitycznych architektur danych korporacyjnych z przeszłości na rzecz nowoczesnej, rozproszonej, zdecentralizowanej architektury przyszłości opartej na danych. Podstawą koncepcji siatki danych są następujące kluczowe atrybuty:

1.  Analiza danych w postaci produktu

Zmiana sposobu myślenia jest najważniejszym pierwszym krokiem ku implementacji siatki danych. Gotowość do przyjęcia wyuczonych praktyk z zakresu innowacji jest podstawą do skutecznej modernizacji architektury danych.

Wyuczone obszary praktyki obejmują:

  • Myślenie projektowe — sprawdzona metodologia rozwiązywania „złożonych problemów”, stosowana w domenach danych przedsiębiorstwa na potrzeby tworzenia produktów zawierających duże ilości danych.
  • Teoria zadań do wykonania — stosowanie procesu innowacji skoncentrowanej na kliencie i innowacji opartej na wynikach w celu zapewnienia, że dane w postaci produktów przedsiębiorstwa rozwiązują rzeczywiste problemy biznesowe.
fpo-01

Teoria zadań do wykonania jest kluczowym fundamentem projektowania danych w postaci produktu, które spełniają określone cele klienta końcowego lub definiują cel produktu. Teoria zadań do wykonania jest kluczowym fundamentem projektowania danych w postaci produktu, które spełniają określone cele klienta końcowego lub zadania do wykonania, definiuje cel produktu.

Mimo że podejście oparte na danych w postaci produktu początkowo pojawiło się we społeczności analityków danych, jest ono obecnie stosowane we wszystkich aspektach zarządzania danymi. Zamiast tworzyć monolityczne architektury technologiczne, siatka danych koncentruje się na konsumentach danych i wynikach biznesowych.

Myślenie o produktach danych może być stosowane w innych architekturach danych, stanowi jednak istotną część siatki danych. Aby przedstawić pragmatyczne przykłady stosowania myślenia o danych w formie produktu, zespół firmy Intuit przeanalizował szczegółowo swoje doświadczenia.

Dane w postaci produktu

Produkty dowolnego rodzaju, począwszy od surowców po produkty w lokalnym sklepie są produkowane jako aktywa posiadające wartość, są przeznaczone do spożycia i mają określone zadanie do wykonania. Dane w formie produktu mogą przybierać różne formy, w zależności od domeny biznesowej lub problemu, który ma zostać rozwiązany, i mogą obejmować:

  • Analityka — historyczne/czasowe raporty i pulpity informacyjne.
  • Zbiory danych — kolekcje danych w różnych wariantach i formatach.
  • Modele — obiekty domen, modele danych, funkcje uczenia maszynowego.
  • Algorytmy - modele uczenia maszynowego, ocena, reguły biznesowe.
  • Usługi danych i interfejsy API — dokumenty, zadania przetwarzania, tematy, interfejsy API REST itd.

Dane w formie produktu są tworzone do użytku, zwykle nie należą do działu IT i wymagają śledzenia dodatkowych atrybutów, takich jak:

  • Mapa interesariuszy — kto jest właścicielem tego produktu, kto go tworzy i kto z niego korzysta?
  • Opakowanie i dokumentacja — jak dane są wykorzystywane? Jaką noszą nazwę?
  • Cel i wartość — jaka jest ukryta/jawna wartość produktu? Czy produkt ulega amortyzacji w czasie?
  • Jakość i spójność — jakie są wskaźniki KPI i umowy SLA dotyczące użytkowania produktu? Czy produkt można zweryfikować?
  • Weryfikacja, cykl życia i zarządzanie — czy istnieje zaufanie do danych i możliwość ich objaśnienia?

2.  Zdecentralizowana architektura danych

Zdecentralizowana architektura danych

Zdecentralizowane systemy IT stanowią nowoczesną rzeczywistość, a wraz z pojawieniem się aplikacji SaaS i infrastruktury chmury publicznej (IaaS) decentralizacja aplikacji i danych pozostanie na pierwszym miejscu. Architektury oprogramowania aplikacji odchodzą od scentralizowanych monolitów przeszłości i przechodzą do rozproszonych mikrousług (siatki usług). Architektura danych będzie podążać za tym samym trendem w kierunku decentralizacji, a dane będą coraz bardziej rozproszone między różnymi lokalizacjami fizycznymi i wieloma sieciami. Takie pojęcie określamy siatką danych.

Co to jest siatka?

Siatka to topologia sieci, która umożliwia wspólną pracę dużej grupy węzłów niehierarchicznych.

Niektóre powszechne przykłady techniczne obejmują:

  • WiFiMesh —węzły współpracujące ze sobą w celu zapewnienia większego zasięgu
  • ZWave/Zigbee — energooszczędne sieci inteligentnych urządzeń domowych
  • Siatka 5G — bardziej niezawodne i wydajne połączenia komórkowe
  • Starlink — szerokopasmowa sieć satelitarna na skalę globalną
  • Siatka usług — sposób na zapewnienie ujednoliconej kontroli nad zdecentralizowanymi mikrousługami (oprogramowaniem aplikacji)

Siatka danych jest dostosowana do takich koncepcji siatki i zapewnia zdecentralizowany sposób dystrybucji danych w sieciach wirtualnych/fizycznych i na duże odległości. Starsze architektury monolityczne do integracji danych, takie jak ETL, narzędzia do zarządzania danych, a ostatnio usługi chmury publicznej, takie jak AWS Glue wymagają wysoce scentralizowanej infrastruktury.

Kompletne rozwiązanie w zakresie siatki danych powinno być w stanie działać w środowisku wielochmurowym, potencjalnie obejmującym systemy lokalne, różne chmury publiczne, a nawet sieci brzegowe.

Rozproszone bezpieczeństwo

W świecie, w którym dane są bardzo rozproszone i zdecentralizowane, znaczenie bezpieczeństwa informacji ma kluczowe znaczenie. W przeciwieństwie do wysoce scentralizowanych monolitów, systemy rozproszone muszą delegować działania niezbędne do uwierzytelniania i autoryzacji różnych użytkowników do różnych poziomów dostępu. Bezpieczne delegowanie zaufania między sieciami jest trudne do wykonania.

Oto kilka kwestii:

  • Szyfrowanie danych w stanie spoczynku — jako dane/zdarzenia zapisywane w magazynie
  • Uwierzytelnianie rozproszone — dla usług i magazynów danych, takich jak mTLS, certyfikaty, SSO, tajne magazyny i sejfy danych.
  • Szyfrowanie podczas trwania procesu — dane/zdarzenia, które znajdują się aktualnie w pamięci
  • Zarządzanie tożsamością - usługi LDAP/IAM, usługi wieloplatformowe
  • Rozproszone autoryzacje — w ramach punktów końcowych usługi w celu redagowania danych
    Na przykład: Open Policy Agent (OPA) do umieszczenia punktu decyzyjnego założenia systemowego (PDP) w klastrze kontenera/K8S, w którym przetwarzany jest punkt końcowy mikrousługi. LDAP/IAM może być dowolną usługą JWT.
  • Maskowanie deterministyczne — w celu niezawodnego i spójnego maskowania danych osobowych.

Bezpieczeństwo w każdym systemie IT może być trudne, a zapewnienie wysokiego poziomu bezpieczeństwa w systemach rozproszonych jest jeszcze trudniejsze. Są to jednak problemy, które można rozwiązać.

Zdecentralizowane domeny danych

Podstawowym założeniem siatki danych jest pojęcie podziału własności i odpowiedzialności. Najlepszą praktyką jest sfederowanie własności produktów i domen danych do osób w organizacji, które znajdują się najbliżej danych. W praktyce może to być zgodne z danymi źródłowymi (na przykład z nieprzetworzonymi danymi źródłowymi, takimi jak operacyjne systemy rekordów/aplikacji) lub z danymi analitycznymi (na przykład zazwyczaj złożone dane lub zagregowane i sformatowane dane w celu ułatwienia ich wykorzystania przez konsumentów). W obu przypadkach producenci i konsumenci danych są często przypisani do jednostek biznesowych, a nie do organizacji IT.

Stare sposoby organizowania domen danych często wpadają w pułapkę konieczności dostosowania się do rozwiązań technologicznych, takich jak narzędzia ETL, hurtownie danych, jeziora danych lub strukturalna organizacja firmy (zasoby ludzkie, marketing i inne obszary działalności). Jednak w przypadku danego problemu biznesowego domeny danych są często najlepiej dostosowane do zakresu rozwiązywanego problemu, kontekstu określonego procesu biznesowego lub rodziny aplikacji w konkretnym obszarze problemu. W dużych organizacjach takie domeny danych są zazwyczaj wykorzystywane w wewnętrznych organizacjach i działach technologicznych.

Funkcjonalny rozkład domen danych ma wysoki priorytet pierwszej klasy w siatce danych. Różne metody rozkładu danych na potrzeby modelowania domen można uzupełnić o architekturę siatki danych, w tym klasyczne modelowanie hurtowni danych (takie jak Kimball i Inmon) lub modelowanie repozytorium danych, ale najczęściej stosowaną obecnie metodologią w architekturze siatki danych jest projektowanie oparte na domenie (DDD). Podejście DDD wyłoniło się z rozkładu funkcjonalnego mikrousług i jest obecnie stosowane w kontekście siatki danych.

3.  Dynamiczne dane pozyskiwane w trakcie trwania procesu

Ważnym obszarem, w którym firma Oracle włączyła się do dyskusji na temat siatki danych, jest zwiększenie znaczenia danych pozyskiwanych w trakcie trwania procesu jako kluczowego składnika nowoczesnej siatki danych. Dane pozyskiwane w trakcie trwania procesu są fundamentalnie niezbędne do wyłączenia siatki danych ze starszego świata monolitycznego, scentralizowanego, wsadowego przetwarzania. Możliwości przesyłania danych odpowiadają na kilka podstawowych pytań dotyczących siatki danych, takich jak:

  • Jak możemy uzyskać dostęp do danych źródłowych w formie produktu dopasowanych w czasie rzeczywistym?
  • Jakie narzędzia mogą zapewnić środki do rozproszonych, zaufanych transakcji danych w fizycznie zdecentralizowanej siatce danych?
  • W przypadku, gdy należy udostępnić zdarzenia danych jako interfejsy API danych w postaci produktu, czego można użyć?
  • W przypadku danych analitycznych w postaci produktu, które muszą pozostać aktualne, jak dostosować się do domen danych i zapewnić zaufanie i poprawność?

Te pytania stanowią nie tylko kwestię „szczegółów wdrożenia” ponieważ mają również centralne znaczenie dla samej architektury danych. Oparta na domenie konstrukcja danych statycznych będzie wykorzystywać inne techniki i narzędzia niż dynamiczne dane pozyskiwane podczas trwania procesu w tym samym modelu. Na przykład w dynamicznych architekturach danych, rejestr danych stanowi centralne źródło prawdy dla zdarzeń związanych z danymi.

Zbiory danych oparte na zdarzeniach

Zbiory danych oparte na zdarzeniach

Zbiory stanowią podstawowy element tworzenia funkcji architektury rozproszonych danych. Podobnie jak w przypadku księgi rachunkowej, zbiory danych rejestrują transakcje w miarę ich występowania.

Podczas dystrybucji księgi zdarzenia danych stają się „odtwarzalne” w dowolnym miejscu. Niektóre zbiory są trochę jak rejestrator lotu samolotu, który jest używany do zapewnienia wysokiej dostępności i odzyskiwania po awarii.

W przeciwieństwie do scentralizowanych i monolitycznych magazynów danych, rozproszone zbiory są specjalnie zaprojektowane pod kątem śledzenia niepodzielnych zdarzeń lub transakcji zachodzących w innych (zewnętrznych) systemach.

Siatka danych nie stanowi tylko jednego rodzaju zbioru. W zależności od przypadków użycia i wymagań, siatka danych może korzystać z różnych typów zbiorów danych w oparciu o zdarzenia, w tym:

  • Księga zdarzeń ogólnego przeznaczenia, na przykład Kafka lub Pulsar
  • Księga zdarzeń danych — rozproszone narzędzia CDC/replikacji
  • Oprogramowanie pośredniczące do obsługi wiadomości — w tym ESB, MQ, JMS i AQ
  • Księga Blockchain — w celu zapewnienia bezpiecznych, niezmiennych, wielokanałowych transakcji

Łącznie takie zbiory mogą działać jako swego rodzaju trwały dziennik zdarzeń dla całego przedsiębiorstwa, udostępniając uruchomioną listę zdarzeń danych odbywających się w systemach rekordów i systemach analiz.

Strumienie danych w różnych językach

Strumienie danych w różnych językach

Strumienie danych w wielu językach występują teraz częściej niż kiedykolwiek. Różnią się one w zależności od typów zdarzeń, danych i innej semantyki transakcji. Siatka danych powinna obsługiwać niezbędne typy strumieni dla różnych zadań przetwarzania danych firmowych.

Zdarzenia proste:
Base64/JSON-raw, zdarzenia nieschematyczne
- Nieprzetworzone zdarzenia telemetryczne

Zapisywanie w dzienniku aplikacji podstawowej/Internet of Things (IoT) zdarzeń:
JSON/Protobuf- może mieć formę
MQTT-IoT

Zdarzenia procesów biznesowych aplikacji:
Zdarzenia SOAP/REST-XML/XSD, JSON
programy i standardy wymiany B2B

Zdarzenia/transakcje związane z danymi:
Logiczne rekordy zmian — LCR, SCN, URID
- Spójność granic — zatwierdzenia a operacje

Przetwarzanie danych strumieniowych

Przetwarzanie strumieniowe to sposób, w jaki dane są modyfikowane w strumieniu zdarzeń. W przeciwieństwie do funkcji typu „lambda”, procesor strumieniowy utrzymuje przepły danych w określonym oknie czasowym i może stosować znacznie bardziej zaawansowane zapytania analityczne do danych.

    Podstawowe filtrowanie danych:

    • Progi, alarmy i monitorowanie telemetrii

    Prosty proces ETL:

    • Funkcje RegEx, matematyka/logika i konkatenacja
    • Rejestrowanie, zastępowanie i maskowanie

CEP i złożony proces ETL:

  • Przetwarzanie zdarzeń złożonych (CEP)
  • Przetwarzanie DML (ACID) i grupy krotek
  • Agregacje, wartości wyszukiwania, złączenia złożone

Analityka strumieniowa:

  • Analizy ciągów czasowych i niestandardowe okna czasowe
  • Rozwiązania geoprzestrzenne, uczenie maszynowe i wbudowana sztuczna inteligencja

Inne ważne atrybuty i zasady

Oczywiście istnieje więcej niż trzy atrybuty siatki danych. Skupiliśmy się na powyższych trzech aspektach, aby zwrócić uwagę na atrybuty, które zdaniem Oracle są niektórymi z unikatowych aspektów nowego, nowoczesnego podejścia do siatki danych.

Inne ważne atrybuty siatki danych obejmują:

  • Narzędzia samoobsługowe — siatka danych uwzględnia ogólny trend zarządzania danymi związany z samoobsługą. Twórcy aplikacji społecznych muszą w coraz większym stopniu być także właścicielami danych.
  • Zarządzanie danymi — siatka danych obejmuje również długoletni trend w kierunku bardziej sformalizowanego, sfederowanego modelu zarządzania, wspieranego przez wiele lat przez dyrektorów ds. danych, zarządców danych i dostawców katalogów danych.
  • Użyteczność danych — zagłębiając się w zasady siatki danych, istnieje sporo fundamentalnych działań,zapewniających wysoką użyteczność danych w formie produktu. Zasady dotyczące danych w postaci produktu będą dotyczyć danych, które są cenne, użyteczne i możliwe do udostępnienia.

 

7 przypadków użycia siatki danych

Dobrze zaprojektowana siatka danych spełnia przypadki użycia operacyjnych i analitycznych domen danych. Poniższe siedem przypadków użycia ilustruje szeroki zakres możliwości, jakie siatka danych wprowadza do danych firmowych.

Integrując w czasie rzeczywistym dane operacyjne i analitykę, firmy mogą podejmować lepsze decyzje operacyjne i strategiczne.

Szkoła zarządzania MIT Sloan School of Management

1. Modernizacja zastosowania

Oprócz migracji do chmury „lift and shift” monolitycznych architektur danych, wiele organizacji stara się również wycofać swoje scentralizowane aplikacje i przejść na bardziej nowoczesną architekturę aplikacji mikrousług.

Podstawa siatki danych dla migracji monolitycznych
Podstawa siatki danych dla migracji monolitycznych
Wzór drzewa figowego do dekompozycji monolitycznej i migracji fazowych
Wzór drzewa figowego do dekompozycji monolitycznej i migracji fazowych

Monolity z dotychczasowych aplikacji zazwyczaj zależą od ogromnych baz danych, stąd pojawia się pytanie, jak wdrożyć plan migracji w celu zmniejszenia zakłóceń, zagrożeń i powstawania kosztów. Siatka danych może zapewnić ważne operacyjne możliwości informatyczne dla klientów wykonujących stopniowe przejścia od monolitów po architekturę siatki. takich jak np.:

  • Odciążanie poddomeny transakcji bazy danych, takich jak filtrowanie danych przez „kontekst powiązany”
  • Dwukierunkowa replikacja transakcji w ramach migracji fazowych
  • Synchronizacja międzyplatformowa, taka jak z jednostki głównej do DBaaS

W języku architektów mikrousług takie podejście wykorzystuje dwukierunkową skrzynkę odbiorczą transakcji, aby umożliwić wzorzec migracji figowej w jednym kontekście powiązanym.

2. Dostępność i ciągłość danych

Siatka danych dla rozproszonych geograficznie zdarzeń danych
Siatka danych dla rozproszonych geograficznie zdarzeń danych

Aplikacje o krytycznym dla firmy znaczeniu wymagają bardzo wysokich wskaźników KPI i umów SLA w zakresie odporności i ciągłości. Bez względu na to, czy są to aplikacje monolityczne, mikrousługi czy coś pomiędzy nimi, nie mogą one przestać działać!

W przypadku systemów o znaczeniu krytycznym rozproszony model danych zapewniający spójność zdarzeń jest zazwyczaj nie do zaakceptowania. Takie aplikacje muszą jednak działać w wielu centrach danych. Pojawia się pytanie o ciągłość działania, „Jak uruchomić swoje aplikacje w więcej niż jednym centrum danych, zapewniając jednocześnie poprawność i spójność danych”

Bez względu na to, czy architektura monolityczna korzysta z „zestawów danych z podziałem na partycje shard”, czy też konfigurowane są mikrousługi zapewniające wysoką dostępność między lokalizacjami, siatka danych oferuje poprawne, szybkie dane w dowolnej odległości.

Siatka danych może stanowić podstawę zdecentralizowanych, ale poprawnych w 100% danych w różnych witrynach. takich jak np.:

  • Transakcje logiczne o bardzo niskim opóźnieniu (międzyplatformowe)
  • Gwarancje poprawności danych zgodne z ACID
  • Wieloaktywne, dwukierunkowe i rozstrzygające konflikty

3. Pozyskiwanie zdarzeń i skrzynka odbiorcza transakcji

Oparte na zdarzeniach, międzyoperacyjne obejmujące różne aplikacje, mikrousługi i bazy danych
Oparte na zdarzeniach, międzyoperacyjne obejmujące różne aplikacje, mikrousługi i bazy danych
Standardowy wzorzec skrzynki nadawczej dla transakcji
Ogólny wzorzec skrzynki nadawczej transakcji (uwaga: istnieją warianty/optymalizacje siatki danych dla tego wzorca).

Nowoczesna platforma typu „serwis” wykorzystuje zdarzenia do wymiany danych. Zamiast przetwarzania wsadowego w warstwie danych, dane przepływają w sposób ciągły, gdy zdarzenia występują w aplikacji lub magazynie danych.

W przypadku niektórych architektur mikrousługi muszą wzajemnie wymieniać się danymi. Inne wzorce wymagają wymiany między monolitycznymi aplikacjami lub magazynami danych. Nasuwa się pytanie: Jak niezawodnie wymieniać dane z mikrousług między aplikacjami i magazynami danych?

Siatka danych może służyć jako podstawa wymiany danych oparta na mikrousługach. takich jak np.:

  • Mikrousługa do mikrousługi w kontekście
  • Mikrousługa do mikrousługi w różnych kontekstach
  • Monolit do/z mikrousługi

Wzorce mikrousług, takie jak pozyskiwanie zdarzeń, CQRS i skrzynka nadawcza transakcji, są powszechnie rozumianymi rozwiązaniami; a siatka danych zawiera narzędzia i struktury, dzięki którym takie wzorce są powtarzalne i niezawodne na dużą skalę.

4. Integracja oparta na zdarzeniach

Poza wzorcami projektowania mikrousług potrzeba integracji przedsiębiorstwa rozciąga się na inne systemy IT, takie jak bazy danych, procesy biznesowe, aplikacje i urządzenia fizyczne każdego rodzaju. Siatka danych stanowi podstawę integracji danych pozyskiwanych w trakcie trwania procesu.

Dane pozyskiwane w trakcie trwania procesu są zazwyczaj oparte na zdarzeniach. Czynność użytkownika, zdarzenie urządzenia, etap procesu lub zatwierdzenie magazynu danych mogą inicjować zdarzenie generujące dane. Te dane są kluczowe do przeprowadzenia integracji systemów Internet of Things (IoT), procesów biznesowych i baz danych, hurtowni danych i repozytoriów „data lake”.

Integracja oparta na zdarzeniach

Siatka danych udostępnia podstawową technologię, umożliwiającą integrację w czasie rzeczywistym w całym przedsiębiorstwie. takich jak np.:

  • Łączenie rzeczywistych zdarzeń urządzeń z systemami IT
  • Integracja procesów biznesowych w systemach ERP
  • Dopasowywanie operacyjnych baz danych do analitycznych magazynów danych

Duże organizacje będą w oczywisty sposób posiadały kombinację starych i nowych systemów, monolitów i mikrousług, operacyjnych i analitycznych magazynów danych; a siatka danych może pomóc ujednolicić te zasoby w różnych domenach biznesowych i danych.

5. Odbieranie strumienia (na potrzeby analityki)

Wykorzystanie siatki danych do wspólnego pozyskiwania danych z jezior, hurtowni i magazynów danych
Wykorzystanie siatki danych do wspólnego pozyskiwania danych z jezior, hurtowni i magazynów danych

Magazyny danych analitycznych mogą obejmować składnicę danych, hurtownie danych, kostki OLAP, jeziora danych i technologie repozytorium danych.

Ogólnie rzecz biorąc, istnieją tylko dwa sposoby wprowadzania danych do tych analitycznych magazynów danych:

  • Ładowanie wsadowe/mikropartii z harmonogramem czasowym
  • Odbieranie strumienia — ciągłe ładowanie zdarzeń danych

Siatka danych stanowi podstawę przyjmowania danych strumieniowych. takich jak np.:

  • Zdarzenia danych z baz danych lub magazynów danych
  • Zdarzenia urządzeń z fizycznej telemetrii urządzenia
  • Rejestrowanie zdarzeń aplikacji lub transakcji biznesowych

Przyjmowanie zdarzeń przez strumień może zmniejszyć wpływ na systemy źródłowe, poprawić rzetelność danych (ważne dla analityki danych) i włączyć dokonywanie analiz w czasie rzeczywistym.

6. Potoki danych strumieniowych

Siatka danych może tworzyć i uruchamiać potoki strumieniowe w repozytorium Data Lake oraz zarządzać nimi
Siatka danych może tworzyć i uruchamiać potoki strumieniowe w repozytorium Data Lake oraz zarządzać nimi

Po przyjęciu danych do analitycznych magazynów są zazwyczaj wymagane potoki danych do przygotowania i transformacji danych na różnych etapach lub w ich różnych strefach. Taki proces udoskonalania danych jest często niezbędny dla produktów danych analitycznych na dalszych etapach.

Siatka danych może zapewnić niezależnie zarządzaną warstwę potoku danych, która współpracuje z analitycznymi magazynami danych, zapewniając następujące usługi podstawowe:

  • Samodzielne wykrywanie i przygotowywanie danych.
  • Zarządzanie zasobami danych w różnych domenach
  • Przygotowywanie i przekształcanie danych w wymagane formaty danych w postaci produktu
  • Weryfikacja danych na podstawie zasad zapewniających spójność

Takie potoki powinny być zdolne do pracy z różnymi fizycznymi magazynami danych (takimi jak składnice, hurtownie czy jeziora) lub jako „strumień danych pushdown” w obrębie analitycznych platform danych obsługujących przesyłanie strumieniowe danych, takich jak Apache Spark i inne technologie repozytorium danych.

7. Analizy strumieniowe

Zdarzenia wszystkich typów (IoT, DB itd.) mogą być analizowane w strumieniach w czasie rzeczywistym
Zdarzenia wszystkich typów mogą być analizowane w strumieniach w czasie rzeczywistym

Zdarzenia mają miejsce na bieżąco. Analiza zdarzeń w strumieniu może mieć kluczowe znaczenie dla zrozumienia tego, co się dzieje i w jakim czasie.

Tego rodzaju analizy strumieni zdarzeń w czasie rzeczywistym oparte na szeregach czasowych mogą być ważne dla rzeczywistych danych urządzeń IoT i dla zrozumienia tego, co dzieje się w centrach danych IT lub w transakcjach finansowych, takich jak monitorowanie oszustw.

W pełni funkcjonalna siatka danych będzie zawierać podstawowe możliwości analizy zdarzeń wszelkiego rodzaju, w wielu różnych oknach czasowych zdarzeń. takich jak np.:

  • Prosta analiza strumienia zdarzeń (zdarzenia internetowe)
  • Monitorowanie aktywności biznesowej (zdarzenia SOAP/REST)
  • Przetwarzanie zdarzeń złożonych (korelacja wielostrumieniowa)
  • Analiza zdarzeń danych (w transakcjach DB/ACID)

Podobnie jak w przypadku potoków danych, analizy strumieniowe mogą działać w ramach ustanowionej infrastruktury repozytorium danych, lub osobno, jako usługi natywne w chmurze.

Uzyskaj maksymalną wartość, używając wspólnej siatki w całym zbiorze danych

Firmy, które znajdują się w czołówce integracji danych, poszukują operacyjnej i analitycznej integracji danych w czasie rzeczywistym z różnorodnych zbiorów trwałych magazynów danych. Innowacje są wprowadzane bezustannie i w szybkim tempie ponieważ architektura danych ewoluuje w analitykę strumieniową. Wysoka dostępność operacyjna doprowadziła do przeprowadzania analiz w czasie rzeczywistym, a automatyzacja inżynierii danych upraszcza przygotowywanie danych, umożliwiając badaczom danych i analitykom korzystanie z narzędzi samoobsługowych.

Podsumowanie przypadków użycia siatki danych

Podsumowanie  przypadków użycia siatki danych

Zbuduj siatkę operacyjną i analityczną w całym zbiorze danych
Umieszczenie wszystkich takich funkcji zarządzania danymi w jednej zunifikowanej architekturze będzie miało wpływ na każdego konsumenta danych. Siatka danych pomoże ulepszyć globalne systemy danych i systemy zaangażowania, aby działać niezawodnie w czasie rzeczywistym, dostosowując takie dane uzyskiwane w czasie rzeczywistym do potrzeb menedżerów biznesowych, analityków danych i klientów. Upraszcza także zarządzanie danymi dla aplikacji mikrousług nowej generacji. Dzięki nowoczesnym metodom i narzędziom użytkownicy końcowi, analitycy i badacze danych będą jeszcze szybciej reagować na żądania klientów i zagrożenia związane z konkurencją. Aby zapoznać się z dobrze udokumentowanym przykładem, zobacz cele i wyniki firmy Intuit.

Korzyści z siatki danych w projektach punktowych
W miarę wdrażania nowego sposobu myślenia o danych w postaci produktu i modelu operacyjnego ważne jest, aby rozwijać doświadczenie w każdej z tych technologii wspomagających. Podczas migracji do siatki danych możesz osiągnąć dodatkowe korzyści, rozwijając architekturę szybkich danych w kierunku analiz strumieniowych, wykorzystując swoje inwestycje w systemy wysokiej dostępności do analiz w czasie rzeczywistym a także zapewniając samoobsługowe analizy w czasie rzeczywistym dla badaczy i analityków danych.

Porównanie i wyodrębnienie różnic

  Struktura danych Integracja programistyczna Magazyn danych analitycznych
  Siatka danych Integracja danych Metakatalog Mikrousługi Wiadomości Data Lakehouse Dystrybuowany plik DW
Ludzie, procesy i metody:
Ukierunkowanie na dane w postaci produktu
dostępny
dostępny
dostępny
oferta 1/4
oferta 1/4
oferta 3/4
oferta 3/4
Atrybuty architektury technicznej:
Architektura rozproszona
dostępny
oferta 1/4
oferta 3/4
dostępny
dostępny
oferta 1/4
oferta 3/4
Zbiory danych oparte na zdarzeniach
dostępny
niedostępne
oferta 1/4
dostępny
dostępny
oferta 1/4
oferta 1/4
Obsługa ACID
dostępny
dostępny
niedostępne
niedostępne
oferta 3/4
oferta 3/4
dostępny
Ukierunkowanie na strumień
dostępny
oferta 1/4
niedostępne
niedostępne
oferta 1/4
oferta 3/4
oferta 1/4
Ukierunkowanie na dane analityczne
dostępny
dostępny
dostępny
niedostępne
niedostępne
dostępny
dostępny
Ukierunkowanie na dane operacyjne
dostępny
oferta 1/4
dostępny
dostępny
dostępny
niedostępne
niedostępne
Siatka fizyczna i logiczna
dostępny
dostępny
niedostępne
oferta 1/4
oferta 3/4
oferta 3/4
oferta 1/4

Wyniki biznesowe


Ogólne korzyści

Szybsze cykle innowacji oparte na danych

Niższe koszty operacyjne w zakresie danych o znaczeniu krytycznym

Wyniki operacyjne

Wielochmurowa płynność danych
— odblokuj kapitał danych, aby swobodnie przepływał

Udostępnianie danych w czasie rzeczywistym
— od operacji do operacji i od operacji do analiz

Edge — usługi danych oparte na lokalizacji
— korelacja zdarzeń z urządzeniami/danymi IRL

Zaufana wymiana danych poprzez mikrousługi
— pozyskiwanie zdarzeń z odpowiednimi danymi
— DataOps i CI/CD dla danych

Niezakłócona ciągłość
— 99,999% dla umów SLA
— migracje do chmury

Wyniki analizy

Automatyzacja i upraszczenie danych w postaci produktów
— wielomodelowe zbiory danych

Analiza danych dla ciągów czasowych
— delty/wpisy zmienione
— dokładność w odniesieniu do poszczególnych zdarzeń

Eliminacja pełnych kopii danych w operacyjnym magazynie danych
— księgi i potoki oparte na dziennikach

Rozproszone jeziora i hurtownie danych
— hybrydowe/wielochmurowe.globalne
— integracja strumieniowa/ETL

Analityka predykcyjna
— monetyzacja danych, nowe usługi danych na sprzedaż

Łączymy te wszystkie możliwości

Transformacja cyfrowa jest niezwykle trudna i niestety większość firm poniesie na niej porażkę. Z biegiem lat technologia, projektowanie oprogramowania i architektura danych stają się coraz bardziej rozproszone, ponieważ nowoczesne techniki wycofują się z silnie scentralizowanych i monolitycznych stylów.

Siatka danych stanowi nową koncepcję danych — zamierzone przejście do wysoce rozproszonych i działających w czasie rzeczywistym zdarzeń związanych z danymi, zamiast ich monolitycznego, scentralizowanego i seryjnego przetwarzania. Siatka danych to główny element przemiany kulturowej, która stawia potrzeby konsumentów danych na pierwszym miejscu. Jest to także prawdziwa zmiana technologiczna — podniesienie poziomu platform i usług umożliwiających zdecentralizowaną architekturę danych.

Przypadki użycia siatki danych obejmują dane operacyjne i dane analityczne, co jest jedną z najważniejszych różnic w stosunku do konwencjonalnych jezior/magazynów lakehouse i hurtowni danych. Takie dopasowanie operacyjnych i analitycznych domen danych ma kluczowe znaczenie dla zwiększania samoobsługi klienta danych. Nowoczesna technologia platformy danych może pomóc usunąć pośrednika, który stoi pomiędzy producentami danych i ich odbiorcami.

Firma Oracle od dawna jest liderem w zakresie kluczowych rozwiązań w zakresie danych oraz wykorzystuje najnowocześniejsze możliwości wzmocnienia zaufanej siatki danych:

  • Infrastruktura Oracle Generation 2 Cloud z ponad 33 aktywnymi regionami
  • Wielomodelowa baza danych w postaci produktu typu „shape-shift”
  • Księga zdarzeń danych oparta na mikrousługach na potrzeby wszelkich magazynów danych
  • Przetwarzanie strumieniowe w wielu chmurach na potrzeby zaufanych danych w czasie rzeczywistym
  • platforma API, nowoczesne narzędzia AppDev i samoobsługowe
  • Analizy, wizualizacja danych i natywna analityka danych w chmurze