Hurtownia danych to rodzaj systemu zarządzania danymi, który ma umożliwić i wspierać działania z zakresu analizy biznesowej (Business Intelligence, BI), w szczególności analityki. Hurtownie danych są przeznaczone wyłącznie do obsługi zapytań i wykonywania analiz, często więc zawierają duże ilości danych historycznych. Dane w hurtowni danych pochodzą zazwyczaj z wielu źródeł, takich jak pliki dzienników aplikacji i aplikacje transakcyjne.
Hurtownia danych centralizuje i konsoliduje duże ilości danych z wielu źródeł. Jej możliwości analityczne pozwalają przedsiębiorstwom wydobywać z danych cenne informacje biznesowe, które ułatwiają podejmowanie decyzji. Z biegiem czasu tworzy się rejestr historyczny, który może być nieocenionym źródłem wiedzy dla analityków danych i analityków biznesowych. Dzięki temu hurtownie danych można uznać za pojedyncze źródło wiedzy w organizacji.
Typowa hurtownia danych często zawiera następujące elementy:
Organizacje mogą także wybrać rozwiązanie łączące przetwarzanie transakcji, analizę w czasie rzeczywistym w hurtowniach i jeziorach danych oraz uczenie maszynowe w jednej usłudze MySQL Database – bez złożoności, opóźnień, kosztów i ryzyka duplikowania ekstrakcji, transformacji i ładowania danych (ETL).
Główną i unikatową korzyścią zapewnianą przez hurtownie danych jest oferowanie przedsiębiorstwom możliwości analizowania dużych ilości danych wariantowych i uzyskiwaniu z nich cennych wniosków, a także prowadzenia archiwum.
Zapewnienie tej głównej korzyści umożliwiają hurtowniom danych cztery unikatowe cechy (opisane przez informatyka Williama Inmona uważanego za wynalazcę hurtowni danych). Zgodnie z tą definicją hurtownie danych charakteryzują się następującymi właściwościami:
Dobrze zaprojektowana hurtownia danych będzie przetwarzać zapytania bardzo szybko i zapewni użytkownikom wysoką przepustowość danych oraz wystarczającą elastyczność do zmniejszenia ilości danych celem ich dokładniejszego zbadania, odpowiednio do wymagań, na bardzo wysokim lub bardzo niskim poziomie szczegółowości. Hurtownia danych stanowi funkcjonalną podstawę środowisk oprogramowania pośredniczącego do obsługi analizy danych biznesowych (BI), udostępniających użytkownikom raporty, pulpity nawigacyjne i inne interfejsy.
Architektura hurtowni danych zależy od specyficznych potrzeb przedsiębiorstwa. Oto typowe architektury:
Kiedy hurtownie danych pojawiły się po raz pierwszy pod koniec lat 80. XX wieku, ich celem było ułatwienie przepływu danych z systemów operacyjnych do systemów wspomagających podejmowanie decyzji (decision-support system, DSS). Te wczesne hurtownie danych wymagały ogromnej nadmiarowości. Większość przedsiębiorstw utrzymywała wiele środowisk DSS obsługujących różnych użytkowników. Chociaż środowiska DSS wykorzystywały w większości te same dane, proces ich gromadzenia, oczyszczania i integracji w poszczególnych środowiskach był często replikowany.
W miarę zwiększania się wydajności hurtowni danych ewoluowały one z magazynów informacji obsługujących tradycyjne platformy BI do postaci zaawansowanych infrastruktur analitycznych obsługujących wiele różnych zastosowań, takich jak analizy operacyjne i zarządzanie wydajnością.
Wraz z upływem czasu interacje hurtowni danych zaczęły przynosić biznesowi dodatkowe korzyści dzięki biznesowej hurtowni danych (EDW).
Etap | Możliwości | Korzyści biznesowe |
---|---|---|
1 | Raportowanie transakcyjne | Udostępnianie informacji relacyjnych na potrzeby tworzenia migawek wyników biznesowych |
2 | Redukowanie danych, zapytania ad hoc, narzędzia BI | Rozszerzanie możliwości głębszego wglądu i dokładniejszej analizy |
3 | Przewidywanie przyszłych wyników (eksploracja danych) | Tworzenie wizualizacji i przyszłościowe analizy biznesowe |
4 | Analiza taktyczna (przestrzenna, statystyczna) | Oferuje scenariusze „warunkowe”, pozwalające podejmować świadome decyzje w oparciu o bardziej kompleksową analizę |
5 | Przechowuje dane z wielu miesięcy lub lat | Przechowuje dane tylko przez kilka tygodni lub miesięcy |
Obsługa każdego z tych pięciu etapów wymagała coraz większej różnorodności zestawów danych. Zwłaszcza trzy ostatnie etapy zmuszają do jeszcze większego rozszerzania zakresu danych i możliwości analitycznych.
Sztuczna inteligencja i uczenie maszynowe przekształcają w obecnie niemal każdą branżę, usługę i zasoby firmowe – hurtownie danych nie są tutaj wyjątkiem. Ekspansja technologii Big Data i stosowanie nowych technologii cyfrowych prowadzi do zmian w wymaganiach stawianych hurtowniom danych oraz w ich możliwościach.
Najnowszym krokiem w tej ewolucji jest autonomiczna hurtownia danych, która pozwala przedsiębiorstwom wydobywać ze zgromadzonych danych jeszcze więcej cennych informacji, obniżając jednocześnie koszty oraz podnosząc poziom niezawodności i wydajności hurtowni danych.
Dowiedz się więcej o autonomicznych hurtowniach danych i zacznij korzystać z własnej autonomicznej hurtowni danych.
Hurtownie danych różnią się od składnic danych i magazynów danych operacyjnych (operation data store, ODS), chociaż pełnią podobne role. Skład danych ma te same funkcje co hurtownia danych, ale w znacznie bardziej ograniczonym zakresie – zazwyczaj obejmuje tylko jeden dział lub działalność biznesową. Dzięki temu tworzenie składnic danych jest łatwiejsze niż hurtowni danych. Mają one jednak tendencję do wprowadzania niespójności, ponieważ jednolite zarządzanie i kontrola danych w wielu zbiorach danych mogą być trudne.
Magazyny ODS obsługują tylko codzienne operacje, więc zapewniany przez nie wgląd w dane historyczne jest bardzo ograniczony. Chociaż sprawdzają się bardzo dobrze jako źródła bieżących danych i są często używane jako takie przez hurtownie danych, nie obsługują zapytań zawierających wiele odniesień historycznych.
Hurtownia danych w chmurze wykorzystuje chmurę do pozyskiwania i przechowywania danych pochodzących z różnych źródeł.
Hurtownie danych były pierwotnie tworzone na serwerach lokalnych. Te lokalne hurtownie danych nadal mają wiele zalet. W wielu przypadkach mogą oferować lepsze zarządzanie, bezpieczeństwo, suwerenność danych oraz mniejsze opóźnienia. Jednak lokalne hurtownie danych nie są tak elastyczne i wymagają złożonego prognozowania, aby określić, jak skalować hurtownię danych pod kątem przyszłych potrzeb. Zarządzanie tymi hurtowniami danych może być również bardzo złożone.
Z drugiej strony, hurtownie danych w chmurze mają następujące zalety:
Najlepsze hurtownie danych w chmurze są w pełni zarządzane i samoczynne, dzięki czemu nawet początkujący użytkownicy mogą tworzyć hurtownie danych i korzystać z nich za pomocą zaledwie kilku kliknięć. Łatwym sposobem na rozpoczęcie migracji do hurtowni danych w chmurze jest uruchomienie magazynu danych w chmurze lokalnie za zaporą centrum danych, spełniającego wymagania w zakresie suwerenności danych i ich bezpieczeństwa.
Większość hurtowni danych w chmurze korzysta ponadto z modelu płacenia jedynie za faktycznie wykorzystane zasoby („pay-as-you-go”), co zapewnia klientom dodatkowe oszczędności.
Różni użytkownicy w obrębie organizacji – z działu IT, inżynierii danych, analityki biznesowej czy zespołu badania danych – mają różne potrzeby dotyczące hurtowni danych.
Nowoczesna architektura danych zaspokaja te różne potrzeby, zapewniając sposób zarządzania wszystkimi typami danych, obciążeniami i analizami. Składa się ona z wzorcowych elementów, w tym z niezbędnych komponentów zintegrowanych w sposób umożliwiający sprawną współpracę zgodnie z najlepszymi praktykami branżowymi. Nowoczesna hurtownia danych oferuje m.in. następujące elementy:
Nowoczesna hurtownia danych może efektywnie usprawnić przepływy pracy związane z obiegiem danych w sposób, jakiego nie mogą zapewnić inne hurtownie. Oznacza to, że każdy użytkownik, od analityków i inżynierów danych po analityków danych i zespoły IT, może wykonywać swoją pracę wydajniej i wprowadzać innowacje zapewniające rozwój przedsiębiorstwa, bez niezliczonych opóźnień i komplikacji.
Z chwilą gdy przedsiębiorstwo postanawia zaprojektować hurtownię danych, musi zacząć od zdefiniowania swoich specyficznych wymagań biznesowych, uzgodnienia zakresu i opracowania projektu koncepcyjnego. Dopiero potem może powstać zarówno logiczny, jak i fizyczny projekt hurtowni danych. Projekt logiczny obejmuje relacje między obiektami, a projekt fizyczny określa najlepszą metodę przechowywania i pobierania obiektów. Projekt fizyczny obejmuje również procesy przenoszenia, tworzenia kopii zapasowych i odzyskiwania danych.
Każdy projekt hurtowni danych musi zawierać następujące elementy:
Podstawowym czynnikiem w projektowaniu są potrzeby użytkowników końcowych. Większość użytkowników końcowych jest zainteresowana przeprowadzaniem analiz i przeglądaniem danych w postaci zagregowanej, a nie pojedynczych transakcji. Często jednak użytkownicy końcowi nie do końca wiedzą, czego chcą, dopóki nie pojawi się konkretna potrzeba. Dlatego już na etapie planowania należy wystarczająco dogłębnie przeanalizować ewentualne potrzeby. Projekt hurtowni danych powinien też umożliwiać rozbudowę i ewolucję, aby dotrzymać kroku zmieniającym się potrzebom użytkowników końcowych.
Hurtownie danych w chmurze oferują te same cechy i korzyści co hurtownie lokalne; przetwarzanie w chmurze zapewnia jednak dodatkowe korzyści, takie jak elastyczność, skalowalność, sprawność, bezpieczeństwo i niższe koszty. Chmurowe hurtownie danych pozwalają przedsiębiorstwom skupić się wyłącznie na wydobywaniu z danych cennych informacji, zamiast na budowaniu infrastruktury sprzętowej i programowej oraz zarządzaniu nią w celu obsługi hurtowni danych.
Do obsługi dużych ilości danych pochodzących z różnych źródeł przedsiębiorstwa wykorzystują zarówno jeziora, jak i hurtownie danych. Decyzja, kiedy należy użyć jednego lub drugiego rozwiązania, zależy od przeznaczenia danych w przedsiębiorstwie. Poniżej opisano, jak najlepiej używać obu rozwiązań:
Hurtownie danych to środowiska relacyjne wykorzystywane do analizy danych, w szczególności danych historycznych. Przedsiębiorstwa wykorzystują hurtownie danych do identyfikowania w swoich danych wzorców i powiązań, które kształtują się w miarę upływu czasu.
Środowiska transakcyjne są natomiast używane do bieżącego przetwarzania transakcji i są powszechnie używane do wprowadzania zamówień oraz obsługi transakcji finansowych i detalicznych. Nie opierają się na danych historycznych; w rzeczywistości, w środowiskach OLTP dane historyczne są często archiwizowane lub po prostu usuwane w celu poprawy wydajności.
Hurtownie danych i systemy OLTP znacznie się od siebie różnią.
Hurtownia danych | System OLTP | |
---|---|---|
Obciążenie | Obsługuje zapytania ad hoc i analizę danych | Obsługuje tylko zdefiniowane wcześniej operacje |
Modyfikacje danych | Regularnie wykonuje automatyczne aktualizacje | Aktualizacje są wykonywane przez użytkowników końcowych realizujących indywidualne operacje |
Projekt schematu | Używa częściowo zdenormalizowanych schematów, aby zoptymalizować wydajność | Używa całkowicie znormalizowanych schematów, aby zagwarantować spójność danych |
Skanowanie danych | Obejmuje tysiące do milionów wierszy | Zapewnia dostęp tylko do kilku rekordów naraz |
Dane historyczne | Przechowuje dane z wielu miesięcy lub lat | Przechowuje dane tylko przez kilka tygodni lub miesięcy |
Najnowszą wersją hurtowni danych jest autonomiczna hurtownia danych, która opiera się na sztucznej inteligencji i samouczeniu się maszyn, aby wyeliminować zadania wykonywane ręczne oraz uprościć konfigurowanie, wdrażanie i zarządzanie danymi. Autonomiczna hurtownia danych udostępniana w chmurze jako usługa nie wymaga administrowania bazą danych przez człowieka, konfigurowania sprzętu oraz zarządzania nim ani instalacji oprogramowania.
Tworzenie hurtowni danych, kopii zapasowych, instalowanie poprawek i uaktualnianie bazy danych oraz jej rozszerzanie i zmniejszanie odbywa się automatycznie – z taką samą elastycznością, skalowalnością, sprawnością i niskimi kosztami, jakie zapewniają platformy chmurowe. Autonomiczna hurtownia danych eliminuje złożoność, przyspiesza wdrażanie i odciąża kadry, dzięki czemu przedsiębiorstwa mogą skupić się na działaniach przynoszących im korzyści biznesowe.
Oracle Autonomous Data Warehouse jest łatwą w użyciu, w pełni autonomiczną hurtownią danych, która elastycznie skaluje się, zapewnia szybką obsługę zapytań i nie wymaga administrowania bazą danych. Konfiguracja Oracle Autonomous Data Warehouse jest bardzo prosta i szybka.