Czym jest hurtownia danych?

Definicja hurtowni danych

Hurtownia danych to rodzaj systemu zarządzania danymi, który ma umożliwić i wspierać działania z zakresu analizy biznesowej (Business Intelligence, BI), w szczególności analityki. Hurtownie danych są przeznaczone wyłącznie do obsługi zapytań i wykonywania analiz, często więc zawierają duże ilości danych historycznych. Dane w hurtowni danych pochodzą zazwyczaj z wielu źródeł, takich jak pliki dzienników aplikacji i aplikacje transakcyjne.

Hurtownia danych centralizuje i konsoliduje duże ilości danych z wielu źródeł. Jej możliwości analityczne pozwalają przedsiębiorstwom wydobywać z danych cenne informacje biznesowe, które ułatwiają podejmowanie decyzji. Z biegiem czasu tworzy się rejestr historyczny, który może być nieocenionym źródłem wiedzy dla analityków danych i analityków biznesowych. Dzięki temu hurtownie danych można uznać za pojedyncze źródło wiedzy w organizacji.


Film o hurtowni danych

 

Typowa hurtownia danych często zawiera następujące elementy:

  • Relacyjna baza danych do przechowywania danych i zarządzania nimi
  • Rozwiązanie do wyodrębniania, ładowania i transformacji (ELT) danych celem przygotowania ich do analizy
  • Funkcje analizy statystycznej, raportowania i eksploracji danych
  • Narzędzia służące do wizualizacji i prezentacji danych użytkownikom biznesowym
  • Inne, bardziej zaawansowane aplikacje analityczne, generujące przydatne informacje poprzez zastosowanie algorytmów danologii i sztucznej inteligencji (SI) lub funkcje przestrzenne i grafowe , które oferują więcej możliwości analiy danych w dowolnej skali

Organizacje mogą także wybrać rozwiązanie łączące przetwarzanie transakcji, analizę w czasie rzeczywistym w hurtowniach i jeziorach danych oraz uczenie maszynowe w jednej usłudze MySQL Database – bez złożoności, opóźnień, kosztów i ryzyka duplikowania ekstrakcji, transformacji i ładowania danych (ETL).

Zalety hurtowni danych

Główną i unikatową korzyścią zapewnianą przez hurtownie danych jest oferowanie przedsiębiorstwom możliwości analizowania dużych ilości danych wariantowych i uzyskiwaniu z nich cennych wniosków, a także prowadzenia archiwum.

Zapewnienie tej głównej korzyści umożliwiają hurtowniom danych cztery unikatowe cechy (opisane przez informatyka Williama Inmona uważanego za wynalazcę hurtowni danych). Zgodnie z tą definicją hurtownie danych charakteryzują się następującymi właściwościami:

  • Przedmiotowość. Są w stanie analizować dane dotyczące konkretnego tematu lub obszaru funkcjonalnego (np. sprzedaży).
  • Integracja. Zapewniają spójność różnych typów danych pochodzących z różnych źródeł.
  • Trwałość. Dane znajdujące się w hurtowni danych są stabilne i nie zmieniają się.
  • Zmienność w czasie. Analiza danych w hurtowni uwzględnia zmiany zachodzące w czasie.

Dobrze zaprojektowana hurtownia danych będzie przetwarzać zapytania bardzo szybko i zapewni użytkownikom wysoką przepustowość danych oraz wystarczającą elastyczność do zmniejszenia ilości danych celem ich dokładniejszego zbadania, odpowiednio do wymagań, na bardzo wysokim lub bardzo niskim poziomie szczegółowości. Hurtownia danych stanowi funkcjonalną podstawę środowisk oprogramowania pośredniczącego do obsługi analizy danych biznesowych (BI), udostępniających użytkownikom raporty, pulpity nawigacyjne i inne interfejsy.

Architektura hurtowni danych

Architektura hurtowni danych zależy od specyficznych potrzeb przedsiębiorstwa. Oto typowe architektury:

  • Prosta. Wszystkie hurtownie danych mają taką samą strukturę, w ramach której metadane, dane podsumowujące i dane nieprzetworzone są przechowywane w centralnym repozytorium hurtowni. Repozytorium jest połączone ze źródłami danych na jednym końcu i dostępne dla użytkowników na drugim końcu, zapewniając funkcje analizy, raportowania i eksploracji.
  • Prosta z obszarem pomostowym. Dane operacyjne muszą zostać oczyszczone i przetworzone, zanim trafią do hurtowni. Chociaż można to zrobić programowo, w wielu hurtowniach danych dodaje się przed wprowadzeniem danych do hurtowni obszar pomostowy, aby uprościć ich przygotowywanie.
  • Piasta-szprychy. Dodanie składnic danych między centralnym repozytorium a użytkownikami końcowymi pozwala przedsiębiorstwu dostosować swoją hurtownię danych do obsługi różnych pionów biznesowych. Gdy dane są gotowe do użycia, są przenoszone do odpowiedniej składnicy danych.
  • Obszary izolowane. Obszary izolowane (tzw. piaskownice, sandbox) to prywatne, bezpieczne obszary, które umożliwiają firmom szybkie i nieformalne eksplorowanie nowych zestawów danych lub metod analizowania danych bez konieczności dostosowywania się do formalnych reguł i protokołu hurtowni danych.

Ewolucja hurtowni danych – od analizy danych do sztucznej inteligencji i uczenia maszynowego

Kiedy hurtownie danych pojawiły się po raz pierwszy pod koniec lat 80. XX wieku, ich celem było ułatwienie przepływu danych z systemów operacyjnych do systemów wspomagających podejmowanie decyzji (decision-support system, DSS). Te wczesne hurtownie danych wymagały ogromnej nadmiarowości. Większość przedsiębiorstw utrzymywała wiele środowisk DSS obsługujących różnych użytkowników. Chociaż środowiska DSS wykorzystywały w większości te same dane, proces ich gromadzenia, oczyszczania i integracji w poszczególnych środowiskach był często replikowany.

W miarę zwiększania się wydajności hurtowni danych ewoluowały one z magazynów informacji obsługujących tradycyjne platformy BI do postaci zaawansowanych infrastruktur analitycznych obsługujących wiele różnych zastosowań, takich jak analizy operacyjne i zarządzanie wydajnością.

Wraz z upływem czasu interacje hurtowni danych zaczęły przynosić biznesowi dodatkowe korzyści dzięki biznesowej hurtowni danych (EDW).

Etap Możliwości Korzyści biznesowe
1 Raportowanie transakcyjne Udostępnianie informacji relacyjnych na potrzeby tworzenia migawek wyników biznesowych
2 Redukowanie danych, zapytania ad hoc, narzędzia BI Rozszerzanie możliwości głębszego wglądu i dokładniejszej analizy
3 Przewidywanie przyszłych wyników (eksploracja danych) Tworzenie wizualizacji i przyszłościowe analizy biznesowe
4 Analiza taktyczna (przestrzenna, statystyczna) Oferuje scenariusze „warunkowe”, pozwalające podejmować świadome decyzje w oparciu o bardziej kompleksową analizę
5 Przechowuje dane z wielu miesięcy lub lat Przechowuje dane tylko przez kilka tygodni lub miesięcy

Obsługa każdego z tych pięciu etapów wymagała coraz większej różnorodności zestawów danych. Zwłaszcza trzy ostatnie etapy zmuszają do jeszcze większego rozszerzania zakresu danych i możliwości analitycznych.

Sztuczna inteligencja i uczenie maszynowe przekształcają w obecnie niemal każdą branżę, usługę i zasoby firmowe – hurtownie danych nie są tutaj wyjątkiem. Ekspansja technologii Big Data i stosowanie nowych technologii cyfrowych prowadzi do zmian w wymaganiach stawianych hurtowniom danych oraz w ich możliwościach.

Najnowszym krokiem w tej ewolucji jest autonomiczna hurtownia danych, która pozwala przedsiębiorstwom wydobywać ze zgromadzonych danych jeszcze więcej cennych informacji, obniżając jednocześnie koszty oraz podnosząc poziom niezawodności i wydajności hurtowni danych.

Dowiedz się więcej o autonomicznych hurtowniach danych i zacznij korzystać z własnej autonomicznej hurtowni danych.

Hurtownie danych, składnice danych i magazyny danych operacyjnych

Hurtownie danych różnią się od składnic danych i magazynów danych operacyjnych (operation data store, ODS), chociaż pełnią podobne role. Skład danych ma te same funkcje co hurtownia danych, ale w znacznie bardziej ograniczonym zakresie – zazwyczaj obejmuje tylko jeden dział lub działalność biznesową. Dzięki temu tworzenie składnic danych jest łatwiejsze niż hurtowni danych. Mają one jednak tendencję do wprowadzania niespójności, ponieważ jednolite zarządzanie i kontrola danych w wielu zbiorach danych mogą być trudne.

Magazyny ODS obsługują tylko codzienne operacje, więc zapewniany przez nie wgląd w dane historyczne jest bardzo ograniczony. Chociaż sprawdzają się bardzo dobrze jako źródła bieżących danych i są często używane jako takie przez hurtownie danych, nie obsługują zapytań zawierających wiele odniesień historycznych.

Czym jest hurtownia danych w chmurze?

Hurtownia danych w chmurze wykorzystuje chmurę do pozyskiwania i przechowywania danych pochodzących z różnych źródeł.

Hurtownie danych były pierwotnie tworzone na serwerach lokalnych. Te lokalne hurtownie danych nadal mają wiele zalet. W wielu przypadkach mogą oferować lepsze zarządzanie, bezpieczeństwo, suwerenność danych oraz mniejsze opóźnienia. Jednak lokalne hurtownie danych nie są tak elastyczne i wymagają złożonego prognozowania, aby określić, jak skalować hurtownię danych pod kątem przyszłych potrzeb. Zarządzanie tymi hurtowniami danych może być również bardzo złożone.

Z drugiej strony, hurtownie danych w chmurze mają następujące zalety:

Najlepsze hurtownie danych w chmurze są w pełni zarządzane i samoczynne, dzięki czemu nawet początkujący użytkownicy mogą tworzyć hurtownie danych i korzystać z nich za pomocą zaledwie kilku kliknięć. Łatwym sposobem na rozpoczęcie migracji do hurtowni danych w chmurze jest uruchomienie magazynu danych w chmurze lokalnie za zaporą centrum danych, spełniającego wymagania w zakresie suwerenności danych i ich bezpieczeństwa.

Większość hurtowni danych w chmurze korzysta ponadto z modelu płacenia jedynie za faktycznie wykorzystane zasoby („pay-as-you-go”), co zapewnia klientom dodatkowe oszczędności.

Czym jest nowoczesna hurtownia danych?

Różni użytkownicy w obrębie organizacji – z działu IT, inżynierii danych, analityki biznesowej czy zespołu badania danych – mają różne potrzeby dotyczące hurtowni danych.

Nowoczesna architektura danych zaspokaja te różne potrzeby, zapewniając sposób zarządzania wszystkimi typami danych, obciążeniami i analizami. Składa się ona z wzorcowych elementów, w tym z niezbędnych komponentów zintegrowanych w sposób umożliwiający sprawną współpracę zgodnie z najlepszymi praktykami branżowymi. Nowoczesna hurtownia danych oferuje m.in. następujące elementy:

  • Konwergentna baza danych, która upraszcza zarządzanie wszystkimi typami danych i zapewnia różne sposoby korzystania z nich
  • Samoobsługowe usługi pozyskiwania i przekształcania danych
  • Obsługa języka SQL, samouczenia się maszyn, wykresów i przetwarzania przestrzennego
  • Wiele opcji analitycznych, które ułatwiają korzystanie z danych bez ich przenoszenia
  • Zautomatyzowane zarządzanie w celu prostego udostępniania, skalowania i administrowania

Nowoczesna hurtownia danych może efektywnie usprawnić przepływy pracy związane z obiegiem danych w sposób, jakiego nie mogą zapewnić inne hurtownie. Oznacza to, że każdy użytkownik, od analityków i inżynierów danych po analityków danych i zespoły IT, może wykonywać swoją pracę wydajniej i wprowadzać innowacje zapewniające rozwój przedsiębiorstwa, bez niezliczonych opóźnień i komplikacji.

Projektowanie hurtowni danych

Z chwilą gdy przedsiębiorstwo postanawia zaprojektować hurtownię danych, musi zacząć od zdefiniowania swoich specyficznych wymagań biznesowych, uzgodnienia zakresu i opracowania projektu koncepcyjnego. Dopiero potem może powstać zarówno logiczny, jak i fizyczny projekt hurtowni danych. Projekt logiczny obejmuje relacje między obiektami, a projekt fizyczny określa najlepszą metodę przechowywania i pobierania obiektów. Projekt fizyczny obejmuje również procesy przenoszenia, tworzenia kopii zapasowych i odzyskiwania danych.

Każdy projekt hurtowni danych musi zawierać następujące elementy:

  • Konkretna treść danych
  • Relacje wewnątrz grup danych i między nimi
  • Środowisko systemowe, które będzie obsługiwać hurtownię danych
  • Wymagane typy transformacji danych
  • Częstotliwość odświeżania danych

Podstawowym czynnikiem w projektowaniu są potrzeby użytkowników końcowych. Większość użytkowników końcowych jest zainteresowana przeprowadzaniem analiz i przeglądaniem danych w postaci zagregowanej, a nie pojedynczych transakcji. Często jednak użytkownicy końcowi nie do końca wiedzą, czego chcą, dopóki nie pojawi się konkretna potrzeba. Dlatego już na etapie planowania należy wystarczająco dogłębnie przeanalizować ewentualne potrzeby. Projekt hurtowni danych powinien też umożliwiać rozbudowę i ewolucję, aby dotrzymać kroku zmieniającym się potrzebom użytkowników końcowych.

Chmura i hurtownia danych

Hurtownie danych w chmurze oferują te same cechy i korzyści co hurtownie lokalne; przetwarzanie w chmurze zapewnia jednak dodatkowe korzyści, takie jak elastyczność, skalowalność, sprawność, bezpieczeństwo i niższe koszty. Chmurowe hurtownie danych pozwalają przedsiębiorstwom skupić się wyłącznie na wydobywaniu z danych cennych informacji, zamiast na budowaniu infrastruktury sprzętowej i programowej oraz zarządzaniu nią w celu obsługi hurtowni danych.

Czy potrzebuję jeziora danych?

Do obsługi dużych ilości danych pochodzących z różnych źródeł przedsiębiorstwa wykorzystują zarówno jeziora, jak i hurtownie danych. Decyzja, kiedy należy użyć jednego lub drugiego rozwiązania, zależy od przeznaczenia danych w przedsiębiorstwie. Poniżej opisano, jak najlepiej używać obu rozwiązań:

  • Jeziora danych służą do przechowywania mnóstwa różnych, niefiltrowanych danych, które zostaną później wykorzystane do określonego celu. Dane z aplikacji biznesowych, aplikacji mobilnych, mediów społecznościowych, urządzeń IoT i innych są zapisywane w jeziorze danych jako nieprzetworzone dane. Strukturę, integralność, wybór i format różnych zestawów danych określa w momencie analizy osoba przeprowadzającą tę analizę. Jezioro danych może być właściwym wyborem, gdy przedsiębiorstwa potrzebują tanich pamięci masowych dla niesformatowanych, nieustrukturyzowanych danych z wielu źródeł, które zamierzają wykorzystać w określonym celu w przyszłości.
  • Hurtownie danych są przeznaczone głównie do analizy danych. Przetwarzanie analityczne w hurtowni danych odbywa się na danych, które zostały przygotowane do analizy – zebrane, skontekstualizowane i przetworzone – w celu wygenerowania wskazówek opartych o analizę. Hurtownie danych są również w stanie przetwarzać duże ilości danych z różnych źródeł. Hurtownia danych jest prawdopodobnie właściwym wyborem, gdy przedsiębiorstwa potrzebują zaawansowanej analizy danych lub analizy opartej na danych historycznych pochodzących z wielu źródeł z całego przedsiębiorstwa.

Dlaczego warto przeprowadzić analizę danych w środowisku OLTP firmy?

Hurtownie danych to środowiska relacyjne wykorzystywane do analizy danych, w szczególności danych historycznych. Przedsiębiorstwa wykorzystują hurtownie danych do identyfikowania w swoich danych wzorców i powiązań, które kształtują się w miarę upływu czasu.

Środowiska transakcyjne są natomiast używane do bieżącego przetwarzania transakcji i są powszechnie używane do wprowadzania zamówień oraz obsługi transakcji finansowych i detalicznych. Nie opierają się na danych historycznych; w rzeczywistości, w środowiskach OLTP dane historyczne są często archiwizowane lub po prostu usuwane w celu poprawy wydajności.

Hurtownie danych i systemy OLTP znacznie się od siebie różnią.

Hurtownia danych System OLTP
Obciążenie Obsługuje zapytania ad hoc i analizę danych Obsługuje tylko zdefiniowane wcześniej operacje
Modyfikacje danych Regularnie wykonuje automatyczne aktualizacje Aktualizacje są wykonywane przez użytkowników końcowych realizujących indywidualne operacje
Projekt schematu Używa częściowo zdenormalizowanych schematów, aby zoptymalizować wydajność Używa całkowicie znormalizowanych schematów, aby zagwarantować spójność danych
Skanowanie danych Obejmuje tysiące do milionów wierszy Zapewnia dostęp tylko do kilku rekordów naraz
Dane historyczne Przechowuje dane z wielu miesięcy lub lat Przechowuje dane tylko przez kilka tygodni lub miesięcy

Wdrażanie z zerową złożonością: Autonomous Data Warehouse

Najnowszą wersją hurtowni danych jest autonomiczna hurtownia danych, która opiera się na sztucznej inteligencji i samouczeniu się maszyn, aby wyeliminować zadania wykonywane ręczne oraz uprościć konfigurowanie, wdrażanie i zarządzanie danymi. Autonomiczna hurtownia danych udostępniana w chmurze jako usługa nie wymaga administrowania bazą danych przez człowieka, konfigurowania sprzętu oraz zarządzania nim ani instalacji oprogramowania.

Tworzenie hurtowni danych, kopii zapasowych, instalowanie poprawek i uaktualnianie bazy danych oraz jej rozszerzanie i zmniejszanie odbywa się automatycznie – z taką samą elastycznością, skalowalnością, sprawnością i niskimi kosztami, jakie zapewniają platformy chmurowe. Autonomiczna hurtownia danych eliminuje złożoność, przyspiesza wdrażanie i odciąża kadry, dzięki czemu przedsiębiorstwa mogą skupić się na działaniach przynoszących im korzyści biznesowe.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse jest łatwą w użyciu, w pełni autonomiczną hurtownią danych, która elastycznie skaluje się, zapewnia szybką obsługę zapytań i nie wymaga administrowania bazą danych. Konfiguracja Oracle Autonomous Data Warehouse jest bardzo prosta i szybka.

Dlaczego warto wybrać rozwiązanie Oracle Autonomous Data Warehouse Cloud zamiast rozwiązania Snowflake?

  • automatyzację. Jedyna hurtownia danych, która w pełni automatyzuje administrowanie bazą danych.
  • Łatwość obsługi. Rozwiązanie Autonomous Data Warehouse jest łatwiejsze do wdrożenia i zarządzania dzięki wbudowanym funkcjom, które eliminują potrzebę korzystania z dodatkowych, odrębnych usług
  • Koszt rozwiązania. Koszty naszej nowoczesnej hurtowni danych i rozszerzonej funkcji są zbliżone do kosztów podobnych wymagań dotyczących obciążenia pracą.
  • Bezpieczeństwo danych. Oferujemy silniejsze wbudowane protokoły bezpieczeństwa, które chronią dane przed cyberzagrożeniami.
  • Zarządzanie danymi. Nasza platforma hurtowni danych umożliwia organizacjom bezproblemowe zarządzanie potrzebami związanymi z suwerennością danych.