Nie znaleziono wyników

Twoje wyszukiwanie nie dało żadnych wyników

Co to jest hurtownia danych?

Hurtownia danych to rodzaj systemu zarządzania danymi, który ma na celu umożliwienie i wspieranie działań z zakresu Business Intelligence (BI), w szczególności analityki. Hurtownie danych są przeznaczone wyłącznie do wykonywania zapytań i analiz i często zawierają duże ilości danych historycznych. Dane w hurtowni danych pochodzą zazwyczaj z wielu źródeł, takich jak pliki dzienników aplikacji i aplikacje transakcyjne.

Hurtownia danych centralizuje i konsoliduje duże ilości danych z wielu źródeł. Jej możliwości analityczne pozwalają organizacjom uzyskiwać z danych cenne informacje biznesowe w celu usprawnienia procesu decyzyjnego. Z biegiem czasu tworzy się rejestr historyczny będący nieocenionym źródłem wiedzy dla analityków danych i biznesu. Dzięki temu hurtownie danych można uznać za “pojedyncze źródło wiedzy” w organizacji.

Typowa hurtownia danych często zawiera następujące elementy:

  • Relacyjna baza danych do przechowywania danych i zarządzania nimi
  • Rozwiązanie do ekstrahowania, ładowania i transformacji (ELT) danych celem przygotowania ich do analizy
  • Funkcje analizy statystycznej, raportowania i eksploracji danych
  • Narzędzia służące do wizualizacji i prezentacji danych użytkownikom biznesowym
  • Inne, bardziej zaawansowane aplikacje analityczne generujące praktyczne
  • informacje dzięki zastosowaniu algorytmów samouczenia się maszyn i sztucznej inteligencji (AI)

Dlaczego warto przeprowadzić analitykę w środowisku OLTP?

Hurtownie danych to środowiska relacyjne używane do analizy danych, w szczególności danych historycznych. Organizacje wykorzystują hurtownie danych do identyfikowania wzorców i relacji w swoich danych, które rozwijają się w czasie.

Środowiska transakcyjne są natomiast używane do bieżącego przetwarzania transakcji i są powszechnie używane do wprowadzania zamówień oraz transakcji finansowych i detalicznych. Nie opierają się na danych historycznych; w rzeczywistości w środowiskach OLTP dane historyczne są często archiwizowane lub po prostu usuwane w celu poprawy wydajności.

Hurtownie danych i systemy OLTP znacznie się od siebie różnią.

Data Warehouse System OLTP
Obciążenie Obsługuje zapytania ad hoc i analizę danych Obsługuje tylko predefiniowane operacje
Modyfikacje danych Regularnie wykonuje automatyczne aktualizacje Aktualizacje przez użytkowników końcowych wykonujących indywidualne operacje
Projekt schematu Używa częściowo zdenormalizowanych schematów, aby zoptymalizować wydajność Używa całkowicie znormalizowanych schematów, aby zagwarantować spójność danych
Skanowanie danych Obejmuje tysiące do milionów wierszy Dostęp do tylko kilku rekordów naraz
Dane historyczne Przechowywanie danych z wielu miesięcy lub lat Przechowywanie danych tylko przez kilka tygodni lub miesięcy

Hurtownie danych, składnice danych i magazyny danych operacyjnych

Chociaż pełnią podobne role, hurtownie danych różnią się od składnic danych i magazynów danych operacyjnych (ODS). Składnica danych wykonuje te same funkcje co hurtownia danych, ale w znacznie bardziej ograniczonym zakresie — zazwyczaj obejmuje pojedynczy dział lub branżę. Dzięki temu tworzenie składnic danych jest łatwiejsze niż hurtowni danych. Mają one jednak tendencję do wprowadzania niespójności, ponieważ jednolite zarządzanie i kontrola danych w wielu zbiorach danych może być trudna.

ODS obsługują tylko codzienne operacje, więc ich widok danych historycznych jest bardzo ograniczony. Chociaż sprawdzają się bardzo dobrze jako źródła bieżących danych i często są używane jako takie przez hurtownie danych, nie obsługują zapytań zawierających wiele odniesień historycznych.

Czy potrzebuję jeziora danych?

Organizacje wykorzystują zarówno jeziora danych, jak i hurtownie danych, do obsługi dużych ilości danych z różnych źródeł. Wybór, kiedy należy użyć jednego lub drugiego, zależy od przeznaczenia danych w organizacji. Poniżej opisano, jak najlepiej używać obu rozwiązań:

  • Jeziora danych przechowują mnóstwo różnych, niefiltrowanych danych, które zostaną później wykorzystane do określonego celu. Dane z aplikacji biznesowych, aplikacji mobilnych, mediów społecznościowych, urządzeń IoT i innych są zapisywane jako nieprzetworzone dane w jeziorze danych. Struktura, integralność, wybór i format różnych zestawów danych jest uzyskiwany w momencie analizy przez osobę przeprowadzającą analizę. Kiedy organizacje potrzebują tanich pamięci masowych dla niesformatowanych, nieustrukturyzowanych danych z wielu źródeł, które zamierzają wykorzystać w przyszłości, jezioro danych może być właściwym wyborem.
  • Hurtownie danych są przeznaczone specjalnie do analizy danych. Przetwarzanie analityczne w hurtowni danych odbywa się na danych, które zostały przygotowane do analizy — zebrane, skontekstualizowane i przekształcone —. Hurtownie danych potrafią również przetwarzać duże ilości danych z różnych źródeł. Kiedy organizacje potrzebują zaawansowanej analizy danych lub analizy, która korzysta z danych historycznych z wielu źródeł w całym przedsiębiorstwie, hurtownia danych jest prawdopodobnie właściwym wyborem.

Zalety hurtowni danych

Hurtownie danych oferują nadrzędną i unikalną korzyść polegającą na umożliwieniu organizacjom analizowania dużych ilości danych wariantowych i uzyskiwaniu z nich znaczącej wartości, a także na prowadzeniu archiwum.

Cztery unikalne cechy (opisane przez Williama Inmona — uważanego za wynalazcę hurtowni danych) umożliwiają hurtowniom danych dostarczanie tej nadrzędnej korzyści. Zgodnie z tą definicją hurtownie danych charakteryzują się następującymi właściwościami:

  • Przedmiotowość. Są w stanie analizować dane dotyczące konkretnego tematu lub obszaru funkcjonalnego (np. sprzedaży);
  • Integracja. Zapewniają spójność między różnymi typami danych z różnych źródeł.
  • Trwałość. Kiedy dane znajdują się w hurtowni danych, są stabilne i nie zmieniają się.
  • Zmienność w czasie. Analiza danych w hurtowni uwzględnia zmiany zachodzące w czasie.

Dobrze zaprojektowana hurtownia danych będzie przetwarzać zapytania bardzo szybko, zapewni użytkownikom wysoką przepustowość danych oraz wystarczającą elastyczność do zmniejszenia ilości danych celem ich dokładniejszego zbadania odpowiednio do wymagań na bardzo wysokim lub bardzo niskim poziomie szczegółowości. Hurtownia danych jest funkcjonalną podstawą środowisk BI oprogramowania pośredniego, zapewniających użytkownikom raporty, panele kontrolne i inne interfejsy.

Architektura hurtowni danych

Architektura hurtowni danych zależy od specyficznych potrzeb organizacji. Oto typowe architektury:

  • Prosta. Wszystkie hurtownie danych mają taką samą budowę, gdzie metadane, dane podsumowujące i dane nieprzetworzone są przechowywane w centralnym repozytorium hurtowni. Repozytorium jest połączone ze źródłami danych na jednym końcu i dostępne dla użytkowników na drugim końcu, zapewniając funkcje analizy, raportowania i eksploracji.
  • Prosta z obszarem pomostowym. Dane operacyjne muszą zostać oczyszczone i przetworzone, zanim trafią do hurtowni. Chociaż można to zrobić programowo, wiele hurtowni danych dodaje obszar pomostowy przed wprowadzeniem danych do hurtowni, aby uprościć przygotowanie danych.
  • Piasta-szprychy. Dodanie składnic danych między centralnym repozytorium a użytkownikami końcowymi pozwala organizacji dostosować swoją hurtownię danych do obsługi różnych linii biznesowych. Gdy dane są gotowe do użycia, są przenoszone do odpowiedniej składnicy danych.
  • Obszary izolowane. Obszary izolowane są prywatnymi, bezpiecznymi, bezpiecznymi obszarami, które umożliwiają firmom szybkie i nieformalne eksplorowanie nowych zestawów danych lub metod analizowania danych bez konieczności dostosowywania się do formalnych reguł i protokołu hurtowni danych.

Ewolucja hurtowni danych — od analizy danych do sztucznej inteligencji i samouczenia się maszyn

Kiedy hurtownie danych pojawiły się po raz pierwszy pod koniec lat 80, ich celem było ułatwienie przepływu danych z systemów operacyjnych do systemów wspomagających podejmowanie decyzji (DSS). Te wczesne hurtownie danych wymagały ogromnej ilości nadmiarowości. Większość organizacji miała wiele środowisk DSS obsługujących różnych użytkowników. Chociaż środowiska DSS wykorzystywały w większości te same dane, proces ich gromadzenia, oczyszczania i integracji w poszczególnych środowiskach był często replikowany.

W miarę zwiększania się wydajności hurtowni danych ewoluowały one z magazynów informacji obsługujących tradycyjne platformy BI w szeroką infrastrukturę analityczną, która obsługuje wiele różnych aplikacji, takich jak analizy operacyjne i zarządzanie wydajnością.

Z czasem iteracje hurtowni danych zaczęły przynosić przedsiębiorstwu dodatkowe korzyści.

Etap Działanie Wartość biznesowa
1 Raportowanie transakcyjne Udostępnianie informacji relacyjnych do tworzenia migawek wydajności biznesowej
2 Dzielenie danych, zapytania ad hoc, narzędzia BI Rozszerzanie możliwości głębszego wglądu i dokładniejszej analizy
3 Przewidywanie przyszłej wydajności (eksploracja danych) Tworzenie wizualizacji i przyszłościowej analizy biznesowej
4 Analiza taktyczna (przestrzenna, statystyczna) Zapewnienie scenariuszy „warunkowych” pozwalających podejmować świadome decyzje w oparciu o bardziej kompleksową analizę
5 Przechowywanie danych z wielu miesięcy lub lat Przechowywanie danych tylko przez kilka tygodni lub miesięcy

Obsługa każdego z tych pięciu etapów wymagało coraz większej różnorodności zestawów danych. Zwłaszcza trzy ostatnie etapy zmuszają do jeszcze większego rozszerzania zakresu danych i możliwości analitycznych.

Obecnie sztuczna inteligencja i samouczenie się maszyn przekształcają niemal każdą branżę, usługę i zasoby przedsiębiorstwa — a hurtownie danych nie są wyjątkiem. Rozwój Big Data i zastosowanie nowych technologii cyfrowych prowadzą do zmian w wymaganiach i możliwościach hurtowni danych.

Najnowszym krokiem w tej ewolucji jest autonomiczna hurtownia danych, która pozwala przedsiębiorstwom uzyskiwać jeszcze większą wartość ze swoich danych przy jednoczesnym obniżaniu kosztów oraz poprawie niezawodności i wydajności hurtowni danych.

Dowiedz się więcej o autonomicznych hurtowniach danych z naszego e-booka i zacznij korzystać z własnej autonomicznej hurtowni danych.

Projektowanie hurtowni danych

Kiedy organizacja postanawia zaprojektować hurtownię danych, musi zacząć od zdefiniowania określonych wymagań biznesowych, uzgodnienia zakresu i opracowania projektu koncepcyjnego. Dopiero potem może powstać zarówno logiczny, jak i fizyczny projekt hurtowni danych. Projekt logiczny obejmuje relacje między obiektami, a projekt fizyczny obejmuje najlepszą metodę przechowywania i pobierania obiektów. Projekt fizyczny obejmuje również procesy transportu, tworzenia kopii zapasowych i odzyskiwania.

Każdy projekt hurtowni danych musi obejmować następujące elementy:

  • Konkretna treść danych
  • Relacje wewnątrz i między grupami danych
  • Środowisko systemowe, które będzie obsługiwać hurtownię danych
  • Wymagane typy transformacji danych
  • Częstotliwość odświeżania danych

Podstawowym czynnikiem w projektowaniu są potrzeby użytkowników końcowych. Większość użytkowników końcowych jest zainteresowana przeprowadzaniem analiz i przeglądaniem danych w postaci zagregowanej, zamiast pojedynczych transakcji. Często jednak użytkownicy końcowi nie do końca wiedzą, czego chcą, dopóki nie pojawi się konkretna potrzeba. Dlatego już na etapie planowania należy wystarczająco dogłębnie przeanalizować ewentualne potrzeby. Wreszcie projekt hurtowni danych powinien umożliwiać rozbudowę i ewolucję, aby dotrzymać kroku zmieniającym się potrzebom użytkowników końcowych.

Chmura i hurtownia danych

Hurtownie danych w chmurze oferują te same cechy i zalety co lokalne hurtownie danych; dodatkowymi zaletami chmury są elastyczność, skalowalność, sprawność, bezpieczeństwo i niższe koszty. Hurtownie danych w chmurze pozwalają przedsiębiorstwom skupić się wyłącznie na wydobywaniu wartości z danych, a nie na budowaniu i zarządzaniu infrastrukturą sprzętową i programową w celu obsługi hurtowni danych.

Przeczytaj o chmurze i hurtowaniach danych Oracle (PDF)

Wdrożenie bez złożoności: autonomiczna baza dla hurtowni danych

Najnowszą odsłoną hurtowni danych jest autonomiczna hurtownia danych, która opiera się na sztucznej inteligencji i samouczeniu się maszyn, by wyeliminować zadania ręczne i uprościć konfigurację, wdrożenie i zarządzanie danymi. Autonomiczna hurtownia danych w chmurze jako usługa nie wymaga administrowania bazą danych przez człowieka, konfiguracji sprzętu lub zarządzania nim, ani instalacji oprogramowania.

Tworzenie hurtowni danych, kopii zapasowych, instalowanie poprawek i uaktualnianie bazy danych oraz rozszerzanie i zmniejszanie bazy danych odbywa się automatycznie — z taką samą elastycznością, skalowalnością, sprawnością i niskimi kosztami, jakie zapewniają platformy chmurowe. Autonomiczna hurtownia danych eliminuje złożoność, przyspiesza wdrażanie i uwalnia zasoby, dzięki czemu organizacje mogą skupić się na działaniach podnoszących ich wartość.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse jest łatwą w użyciu, w pełni autonomiczną hurtownią danych, która elastycznie skaluje się, zapewnia szybką wydajność zapytań i nie wymaga administrowania bazą danych. Konfiguracja Oracle Autonomous Data Warehouse jest bardzo prosta i szybka.

Dowiedz się więcej o Oracle Autonomous Data Warehouse Cloud (PDF)