Bezpłatna chmura Oracle Cloud Free Tier

Twórz, testuj i wdrażaj aplikacje na platformie Oracle Cloud — bezpłatnie.

Czym jest jezioro danych?

Definicja jeziora danych

Oto prosta definicja: jezioro danych to miejsce do przechowywania ustrukturyzowanych i nieustrukturyzowanych danych oraz sposób organizowania dużych ilości wybitnie zróżnicowanych danych z różnych źródeł.

Jeziora danych stają się coraz ważniejsze, ponieważ ludzie, zwłaszcza w biznesie i technologii, chcą dokonywać badań i odkryć w danych na szeroką skalę. Łączenie wszystkich lub większości danych w jednym miejscu zdecydowanie to ułatwia.

W zależności od używanej platformy jezioro danych może to wybitnie uprościć. Może obsługiwać wiele struktur danych, takich jak dane niestrukturyzowane i multistrukturyzowane. Może także pomóc w czerpaniu korzyści z danych.

jezioro danych i hurtownia danych

Jezioro danych a hurtownią danych

Najważniejszą różnicą między jeziorem danych a hurtownią danych jest to, że jezioro danych zazwyczaj bardzo szybko pobiera dane i przygotowywuje je na bieżąco dopiero podczas uzyskiwania do nich dostępu przez ludzi. Z drugiej strony, dzięki hurtowni danych, można bardzo starannie przygotować uprzednio dane, zanim do niej dotrą.

Użytkownicy chcą możliwie szybko przyjmować dane do jeziora danych, by firmy z operacyjnymi przypadkami użycia, zwłaszcza w zakresie raportowania operacyjnego, analiz oraz monitorowania biznesowego, miały dostęp do najnowszych danych. Dzięki temu mogą mieć dostęp do najnowszych danych i posiadać najbardziej zaktualizowane informacje.

Dzięki jezioru danych użytkownicy często przyjmują dane w pierwotnej i niezmienionej formie. Może to byćwynikać z szybkości, ale również z innych powodów, w tym z chęci wykonania zaawansowanych analiz, które mogą wymagać szczegółowych danych źródłowych. To analiza oparta na eksploracji dowolnego rodzaju, na przykład:

  • Eksploracji tekstu
  • Eksploracji danych
  • Analizie statystycznej
  • Dowolnemu działaniu związanym z klastrami
  • Analiza grafów

Przypadki użycia jeziora danych

Aby zapewnić wszystkie korzyści dostępne dzięki jeziorom danych, właściwe rozwiązanie powinno oferować lepsze sposoby na:

  • Przyjmowanie i transformację: Przenoszenie i konwersję różnych rodzajów i formatów danych
  • Utrwalanie i dostęp: Zapewnić bezpieczeństwo i odkrywalność danych, łatwe skalowanie oraz dostępność dla wszystkich produktów, zgodnie z zapotrzebowaniem
  • Analizowanie i wykorzystanie badania danych: Ujawniać przydatne odkrycia i trendy w danych

Jezioro danych jest bardziej użyteczne, jako część większej platformy zarządzania danymi. Dobra integracja z istniejącymi danymi i narzędziami oznacza potężniejsze jezioro danych.

Omnikanałowe marketingowe jezioro danych

Wykorzystanie jeziora danych do rozszerzania hurtowni danych jest często stosowane w marketingu omnikanałowym, czasami nazywanym marketingiem wielokanałowym. Postrzeganie ekosystem danych w marketingu polega na uznaniu każdego kanału i punktu kontaktu za samodzielną bazę danych. Wielu specjalistów ds. marketingu kupuje również dane od stron trzecich.

Specjalista ds. marketingu może na przykład chcieć kupić dane zawierające dodatkowe dane demograficzne i preferencje konsumenckie opisujące aktualnych i potencjalnych klientów. To pomaga osiągnąć pełny profil każdego klienta, co z kolei wspomaga tworzenie bardziej spersonalizowanych i ukierunkowanych kampanii marketingowych.

To złożony ekosystem danych, który nieustannie rośnie i zwiększa swoją złożoność. Jezioro danych jest często wprowadzane w celu przechwytywania danych pochodzących z wielu kanałów i punktów kontaktu. Niektóre z nich to dane przesyłane strumieniowo.

Firmy, które oferują swoim klientom aplikację na smartfony, mogą otrzymywać dane w czasie rzeczywistym lub prawie rzeczywistym, zależnie od użycia aplikacji przez klientów. W wielu przypadkach firma nie wymaga danych w czasie rzeczywistym. Dane mogą pochodzić sprzed godziny lub dwóch. Pozwala to jednak działowi marketingu na prowadzenie ścisłego monitorowania działalności i tworzenie ofert, zachęt, rabatów i mikrokampanii.

Jezioro danych cyfrowego łańcucha dostaw

Cyfrowy łańcuch dostaw stanowi równie zróżnicowane środowisko danych, a jezioro danych może pomóc w jego obsłudze, zwłaszcza jeśli korzysta ono z Hadoop. Hadoop jest w dużej mierze systemem opartym na plikach, ponieważ został pierwotnie zaprojektowany do obsługi rozlicznych dużych plików dziennika pochodzących z serwerów internetowych. W łańcuchu dostaw często występuje duża ilość danych opartych na plikach. To między innymi dane oparte na plikach i dokumentach z systemów EDI, XML oraz oczywiście JSON, zdecydowanie obecny w cyfrowym łańcuchu dostaw. To bardzo różnorodne informacje.

Należy również wziąć pod uwagę wewnętrzne informacje. Producenci często posiadają dane z produkcji oraz wysyłki i fakturowania, które są bardzo ważne dla łańcucha dostaw. Jezioro może pomóc producentom połączyć te dane i zarządzać nimi w sposób oparty na plikach.

Jezioro danych Internetu rzeczy

Internet rzeczy (Internet of Things) tworzy w niektórych firmach nowe źródła danych niemal codziennie. Oczywiście, postępująca dywersyfikacja tych źródeł prowadzi do stworzenia jeszcze większej ilości danych. Increasingly, there are more sensors on more machinery all the time. Dla przykładu, każdy pojazd w transporcie kolejowym lub samochodowym może mieć ogromną listę czujników, dzięki czemu firma może śledzić położenie tego pojazdu w czasie i przestrzeni, a także sposób jego funkcjonowania. Czy działa bezpiecznie? Czy działa w optymalny sposób w stosunku do zużycia paliwa? Z tych miejsc pochodzą ogromne ilości informacji, a jezioro danych jest dla nich bardzo popularnym rozwiązaniem, ponieważ zapewnia repozytorium dla wszystkich danych tego rodzaju.

Pojedyncze jezioro danych

Te przykłady opisują dość ukierunkowane wykorzystanie jeziora danych w niektórych działach lub programach IT. Innym podejściem dla scentralizowanego IT, jest zapewnienie jednego, wielkiego jeziora danych z wieloma dzierżawcami. Może być ono używane przez wiele różnych działów, jednostek biznesowych i programów technologicznych. Wraz ze stopniowym przyzwyczajeniem się użytkowników do jeziora, będą oni w stanie zoptymalizować je pod kątem różnych zastosowań, analiz, a nawet zgodności.

Różne rodzaje platform jeziora danych

Jezioro danych może być używane na wiele sposobów. Ma także wiele podrzędnych platform. Hadoop jest najczęściej używaną, lecz nie jedyną platformą.

Hadoop

Hadoop jest atrakcyjny. Wykazał się liniową skalowalnością. Jest rozwiązaniem o niskim koszcie skalowalności w porównaniu z relacyjną bazą danych. Ale Hadoop to nie tylko tanie miejsce składowania. To również potężna platforma przetwarzania. A dla wszystkich próbujących wykonywać analizy algorytmiczne, Hadoop może być bardzo przydatny.

System zarządzania relacyjną bazą danych

System zarządzania relacyjnymi bazami danych może być także platformą dla jeziora danych, ponieważ niektóre osoby mają ogromne ilości ustrukturyzowanych i relacyjnych danych, które chcą umieścić w jeziorze. Tak więc jeśli dane są z natury relacyjne, podejście DBMS do jeziora danych byłoby idealne. Ponadto, jeśli istnieją przypadki użycia, w których pragnie się skorzystać z funkcji relacyjnych, takich jak SQL lub złączenia tabel złożonych, RDBMS jest doskonałym rozwiązaniem.

Składowanie w chmurze

Trendy wskazują jednak na systemy bazujące na chmurze, a szczególnie na składowanie w chmurze. Elastyczna skalowalność jest wielką zaletą chmur. Podczas skalowania w górę zadań przetwarzania mogą one zapewnić zasoby serwera i nie tylko. W porównaniu z wieloma systemami lokalnymi, chmura może być bardzo tania. Po części wynika to z braku integracji systemu.

Lokalne działanie wymaga samodzielnej lub zleconej wielomiesięcznej integracji systemu. Dla wielu systemów istnieje jednak dostawca usługi w chmurze, który oferuje taką integrację natychmiastowo. Wystarczy jedynie wykupić licencję i można zacząć działać w przeciągu godzin, a nie miesięcy. Dodatkowo, podejście do chmury w kontekście magazynu obiektów, o którym mowa była w poprzednim wpisie, dotyczącym najlepszych praktykach w zakresie jeziora danych, oferuje wiele korzyści.

Ponadto, przy użyciu jeziora danych możliwe jest posiadanie hybrydowej mieszanki platform. Dobra znajomość logicznej hurtownią danych umożliwia stworzenie czegoś podobnego – logicznego jeziora danych. Dane są w nim fizycznie rozprowadzone na wielu platformach. Wiążą się z tym jednak pewne wyzwania – na przykład konieczność posiadania specjalnych narzędzi, które radzą sobie ze sfederowanymi zapytaniami lub wirtualizacja danych dla daleko sięgających zapytań analitycznych.

Ale ta technologia jest dostępna na poziomie narzędzi i wiele osób z niej korzysta.

Repozytorium danych, przyszłość jezior danych?

W dążeniu do wydobycia większej wartości ze swoich danych, firmy zawsze przełamują granice. Dzięki dostępności przetwarzania w chmurze, firmy często łączą technologie bazujące na jeziorze danych z hurtowniami danych w jedną architekturę, zwaną repozytorium danych (data lakehouse). Korzyści wynikające z używania repozytorium danych obejmują lepszą integrację, zmniejszenie przenoszenia danych, lepsze zarządzanie danymi i obsługę większej liczby przypadków użycia.

Stwórz jezioro dany

Jezioro danych jest odpowiedzią na wyzwanie związane ze zorganizowaniem dużych ilości różnorodnych danych z różnych źródeł. Dla osób i organizacji pragnących rozpocząć zabawę z jeziorem danych możemy zaoferować Oracle Free Tier.