Czym tak naprawdę jest Big Data?
Big Data to zbiory danych cechujących się większą różnorodnością i docierających do przedsiębiorstw w coraz większych ilościach i z większą szybkością. Wymienione trzy cechy uznaje się za kluczowy wyróżnik tego rodzaju zbiorów.
Mówiąc prościej, Big Data to większe, bardziej złożone zbiory danych, pochodzących zwłaszcza z nowych źródeł. Zbiory te są tak obszerne, że tradycyjne oprogramowanie do przetwarzania danych po prostu nie jest w stanie nimi zarządzać. Jednak te ogromne ilości danych można wykorzystywać do rozwiązywania problemów biznesowych, z którymi wcześniej przedsiębiorstwo nie byłoby sobie w stanie poradzić.
Ilość | Ilość danych ma duże znaczenie. W przypadku Big Data trzeba przetwarzać duże ilości nieustrukturyzowanych danych o małej gęstości. Mogą to być dane o nieznanej wartości, takie jak dane pochodzące z Twittera, strumienie kliknięć na stronie internetowej lub w aplikacji mobilnej bądź dane ze sprzętu z czujnikami. W przypadku niektórych przedsiębiorstw mogą to być dziesiątki terabajtów danych. W przypadku innych — setki petabajtów. |
Szybkość | Szybkość oznacza szybkie tempo, w jakim dane są odbierane oraz (ewentualnie) przetwarzane i wykorzystywane do dalszych działań. Zwykle najszybciej docierające dane przekazuje się bezpośrednio do pamięci, zamiast zapisywać je na dysku. Niektóre inteligentne produkty z dostępem do Internetu działają w czasie rzeczywistym lub zbliżonym do rzeczywistego oraz wymagają oceny i podejmowania działań w czasie rzeczywistym. |
Różnorodność | Różnorodność oznacza dostępność wielu typów danych. Tradycyjne typy danych miały uporządkowaną strukturę i można je było z łatwością zapisać w relacyjnej bazie danych. Wraz z pojawieniem się Big Data zaczęto też gromadzić nowe, nieustrukturyzowane typy danych. Nieustrukturyzowane i częściowo ustrukturyzowane typy danych, takie jak tekst, dźwięk i wideo, wymagają dodatkowego przetwarzania wstępnego w celu wydobycia ich znaczenia i obsługi metadanych. |
W ciągu ostatnich kilku lat zaczęto brać pod uwagę jeszcze dwie kolejne cechy Big Data: ich wartość i prawdziwość. Dane mają określoną wartość wewnętrzną. Nie można jednak jej wykorzystać, dopóki się jej nie odkryje. Równie ważne jest to, na ile prawdziwe są dane zgromadzone przez przedsiębiorstwo, i na ile można na nich polegać.
Dziś wielkie zbiory danych stanowią kapitał przedsiębiorstwa. Wystarczy pomyśleć o największych światowych firmach technologicznych. Duża część oferowanych przez nie korzyści wynika ze zgromadzonych danych, które firmy te stale analizują, aby działać jak najefektywniej i opracowywać nowe produkty.
Ostatnio opracowane przełomowe technologie pozwoliły znacznie obniżyć koszty przechowywania i przetwarzania danych, dzięki czemu przechowywanie większych ilości danych stało się łatwiejsze i tańsze niż kiedykolwiek wcześniej. Wielkie zbiory danych są teraz jeszcze większe, tańsze i bardziej dostępne, dzięki czemu przedsiębiorstwa mogą podejmować trafniejsze i bardziej precyzyjne decyzje biznesowe.
Poszukiwanie wewnętrznej wartości zbiorów Big Data nie ogranicza się tylko do ich analizy (która sama w sobie zapewnia ważne korzyści). To skomplikowany proces wymagający udziału wnikliwych analityków, użytkowników biznesowych i członków kadry kierowniczej, którzy zadają właściwe pytania, rozpoznają wzorce, przyjmują świadome założenia i przewidują zachowania.
Jak jednak do tego doszło?
Choć sama koncepcja Big Data jest stosunkowo nowa, początki dużych zbiorów danych sięgają lat 60. i 70. ubiegłego wieku, kiedy to świat danych dopiero zaczynał się kształtować wraz z powstaniem pierwszych centrów danych i opracowaniem technologii relacyjnej bazy danych.
Około 2005 r. ludzie zaczęli zdawać sobie sprawę, ile danych generują użytkownicy za pośrednictwem Facebooka, YouTube'a i innych serwisów online. W tym samym roku opracowano platformę Hadoop — środowisko open source stworzone specjalnie do przechowywania i analizowania zbiorów Big Data. Zaczęła również wtedy zdobywać popularność baza danych NoSQL.
Kluczowe znaczenie dla rozwoju technologii Big Data miał rozwój platform open source, takich jak Hadoop (a ostatnio Spark), ponieważ ułatwiają one obsługę wielkich zbiorów danych i obniżają koszty ich przechowywania. W kolejnych latach objętość wielkich zbiorów danych gwałtownie wzrosła. Użytkownicy wciąż generują ogromne ilości danych — robią to jednak nie tylko ludzie.
Wraz z pojawieniem się Internetu rzeczy (Internet of Things, IoT) do Internetu zaczęto podłączać coraz więcej obiektów i urządzeń, co pozwala gromadzić dane na temat wzorców ich użytkowania przez klientów oraz funkcjonowania produktów. Źródłem jeszcze większych ilości danych stała się technologia samouczenia się maszyn.
Choć technologia Big Data zaszła już daleko, efektywne korzystanie z niej tak naprawdę dopiero się zaczyna. Jej możliwości jeszcze bardziej zwiększyło przetwarzanie w chmurze. Chmura oferuje naprawdę elastyczną skalowalność — programiści mogą po prostu wykorzystywać klastry ad hoc, aby przetestować jakiś podzbiór danych. Coraz większego znaczenia nabierają też graficzne bazy danych, które umożliwiają wyświetlanie ogromnych ilości danych w sposób zapewniający ich szybką i kompleksową analizę.
Korzyści zapewniane przez technologię Big Data:
Technologia Big Data może wspierać firmę w realizacji różnego rodzaju działań biznesowych, od obsługi klienta po analitykę. Oto kilka takich działań.
Rozwój produktów | Firmy takie jak Netflix czy Procter & Gamble wykorzystują technologię Big Data do przewidywania popytu wśród klientów. Tworzą modele predykcyjne dla nowych produktów i usług, klasyfikując kluczowe atrybuty dawnych i obecnych produktów i usług oraz modelując związek między tymi atrybutami a komercyjnym sukcesem poszczególnych ofert. Ponadto P&G wykorzystuje dane i analizy z grup fokusowych, mediów społecznościowych, rynków testowych i próbnego wprowadzania nowych produktów w sklepach podczas procesów planowania, wytwarzania i wypuszczania produktów na rynek. |
Konserwacja predykcyjna | Czynniki pomocne w przewidywaniu awarii mechanicznych mogą być ukryte głęboko w danych ustrukturyzowanych, takich jak rok produkcji, marka czy model sprzętu, a także w danych nieustrukturyzowanych obejmujących miliony wpisów w dzienniku, dane z czujników, komunikaty o błędach i temperaturę silnika. Analizując te oznaki potencjalnych problemów, zanim do nich faktycznie dojdzie, przedsiębiorstwa mogą dokonywać konserwacji w bardziej ekonomiczny sposób i maksymalnie wydłużać czas bezawaryjnego działania części i sprzętu. |
Obsługa klienta | Na rynku trwa ostra walka o klienta. Przedsiębiorstwo może dziś jednak uzyskać bardziej przejrzysty wgląd w dotychczasowe kontakty z klientami. Technologia Big Data umożliwia gromadzenie danych z mediów społecznościowych, wizyt na stronach internetowych, dzienników połączeń i innych źródeł w celu usprawnienia interakcji z klientami i zapewnienia im maksymalnych korzyści. Zacznij dostarczać klientom spersonalizowane oferty, ogranicz ich rotację i z wyprzedzeniem rozwiązuj problemy. |
Oszustwa i zgodność z przepisami | Jeśli chodzi o bezpieczeństwo, to problemem nie jest tylko kilku hakerów — musisz stawić czoła całym zespołom ekspertów. Systemy bezpieczeństwa i wymagania dotyczące zgodności z przepisami ulegają ciągłym zmianom. Technologia Big Data pomaga identyfikować w danych wzorce wskazujące na oszustwa i gromadzić duże ilości informacji, aby znacznie przyspieszyć generowanie sprawozdań wymaganych przez organy regulacyjne. |
Uczenie maszynowe | Samouczenie się maszyn to obecnie naprawdę gorący temat. Jednym z powodów są dane — w szczególności wielkie zbiory danych. Możemy teraz uczyć maszyny, zamiast je programować. Jest to możliwe dzięki dostępności wielkich zbiorów danych, które można wykorzystywać do trenowania modeli samouczenia się maszyn. |
Efektywność operacyjna | Kwestia efektywności operacyjnej może nie zawsze trafia na pierwsze strony gazet, ale jest to obszar, w którym technologia Big Data wywiera największy wpływ. Dzięki wielkim zbiorom danych można analizować i oceniać produkcję, opinie klientów i zwroty oraz inne czynniki, aby zmniejszyć liczbę przestojów i przewidywać przyszłe wymagania. Technologię Big Data można również wykorzystywać do usprawniania procesu podejmowania decyzji zgodnie z aktualnym popytem rynkowym. |
Stymulowanie innowacji | Technologia Big Data może pomóc we wprowadzaniu innowacji, umożliwiając badanie współzależności między ludźmi, instytucjami, podmiotami i procesami, a następnie określając nowe sposoby wykorzystania uzyskanych wniosków. Wykorzystuj wnioski z danych w celu podejmowania lepszych decyzji dotyczących kwestii finansowych i planowania. Badaj trendy i oczekiwania klientów, aby udostępniać nowe produkty i usługi. Wdrażaj ceny dynamiczne. Liczba możliwości jest nieskończona. |
Technologia Big Data jest bardzo obiecująca, wiąże się też z nią jednak wiele wyzwań.
Po pierwsze, wielkie zbiory danych są… wielkie. Choć opracowywane są nowe technologie przechowywania danych, ilość danych podwaja się mniej więcej co dwa lata. Przedsiębiorstwa wciąż mają trudności z dotrzymywaniem kroku wzrostowi ilości swoich danych i znajdywaniem sposobów na ich efektywne przechowywanie.
Jednak samo przechowywanie danych nie wystarczy. Aby zapewniać korzyści, dane muszą być wykorzystywane, a to zależy od ich właściwej selekcji i odpowiedniego przygotowania. Uzyskanie „czystych” danych, czyli danych istotnych dla klienta i zorganizowanych w sposób umożliwiający ich sensowną analizę, wymaga wiele pracy. Inżynierowie danych spędzają od 50% do 80% czasu na selekcjonowaniu i przygotowywaniu danych, zanim będzie można je faktycznie wykorzystać.
Ponadto technologia Big Data ulega szybkim zmianom. Kilka lat temu popularną technologią używaną do obsługi Big Data była platforma Apache Hadoop. Następnie w 2014 r. wprowadzono platformę Apache Spark. Obecnie najlepszym podejściem wydaje się połączenie tych dwóch środowisk. Dotrzymywanie kroku rozwojowi technologii Big Data to ciągłe wyzwanie.
Odkryj więcej zasobów na temat technologii Big Data:
Technologia Big Data dostarcza nowych użytecznych informacji, które otwierają przed przedsiębiorstwem nowe możliwości i pozwalają na wdrażanie nowych modeli biznesowych. Aby zacząć korzystać z tej technologii, trzeba podjąć trzy kluczowe działania:
1. Integracja
Technologia Big Data pozwala połączyć dane pochodzące z wielu różnych źródeł i aplikacji. Tradycyjne mechanizmy integracji danych, takie jak wyodrębnianie, przekształcanie i ładowanie (extract, transform and load, ETL), zwykle nie nadają się do realizacji tego zadania. Wymaga ono zastosowania nowych strategii i technologii do analizy wielkich zbiorów zawierających terabajty, a nawet petabajty danych.
Podczas integracji trzeba udostępnić dane, przetworzyć je i upewnić się, że są sformatowane i dostępne w formie, od której analitycy biznesowi będą mogli zacząć pracę.
2. Zarządzanie
Technologia Big Data wymaga dużych ilości pamięci masowej. Rozwiązanie do przechowywania danych może być wdrożone w chmurze, lokalnie lub w obu tych środowiskach. Firma może przechowywać swoje dane w dowolnej pożądanej formie i na żądanie stosować wobec tych zbiorów danych niezbędne mechanizmy przetwarzania z uwzględnieniem odpowiednich wymagań dotyczących tego typu procesów. Wiele osób wybiera swoje rozwiązanie do przechowywania danych w zależności od tego, gdzie aktualnie znajdują się ich dane. Chmura stopniowo zyskuje na popularności, ponieważ obsługuje obecne wymagania obliczeniowe firmy oraz umożliwia skorzystanie w razie potrzeby z dodatkowych zasobów.
3. Analiza
Inwestycja w technologię Big Data zwraca się, gdy firma analizuje swoje dane i wykorzystuje uzyskane wnioski w dalszej działalności biznesowej. Uzyskaj przejrzysty wgląd w sytuację dzięki wizualnej analizie zróżnicowanych zbiorów danych swojego przedsiębiorstwa. Eksploruj dane dalej, aby dokonywać nowych odkryć. Podziel się swoimi spostrzeżeniami z innymi. Twórz modele danych z wykorzystaniem mechanizmów samouczenia się maszyn i sztucznej inteligencji. Wykorzystuj dane swojej firmy w jej działalności biznesowej.
Aby pomóc Twojej firmie we wdrożeniu technologii Big Data, zebraliśmy kilka kluczowych najlepszych praktyk, o których należy pamiętać. Oto nasze wskazówki dotyczące utworzenia efektywnego środowiska Big Data.
Dostosuj technologię Big Data do konkretnych celów biznesowych | Bardziej rozbudowane zbiory danych umożliwiają dokonywanie nowych odkryć. W tym celu ważne jest, aby podejmować nowe inwestycje w kwalifikacje pracowników, organizację lub infrastrukturę w oparciu o silny kontekst biznesowy, co pozwoli zagwarantować bieżące inwestycje na potrzeby projektu i jego finansowanie. Aby ustalić, czy jesteś na dobrej drodze, zapytaj, w jaki sposób technologia Big Data wspiera najważniejsze priorytety biznesowe i informatyczne Twojej firmy oraz umożliwia ich realizację. Za przykład może tu posłużyć m.in. zrozumienie, jak filtrować dzienniki sieci WWW, aby właściwie zinterpretować zachowania w handlu elektronicznym, odczytywanie nastrojów klientów z mediów społecznościowych i kontaktów związanych z obsługą klienta oraz zrozumienie metod korelacji statystycznej i ich znaczenia dla analizy danych dotyczących klientów, produktów, produkcji i inżynierii. |
Zmniejsz braki w kwalifikacjach pracowników poprzez wdrożenie standardów i zarządzanie | Jedną z największych przeszkód w czerpaniu korzyści z inwestycji w technologię Big Data są braki w kwalifikacjach pracowników. Można zminimalizować to ryzyko, dbając o dodanie technologii, zagadnień i decyzji z zakresu Big Data do programu zarządzania infrastrukturą informatyczną. Standaryzacja podejścia umożliwi zarządzanie kosztami i lepsze wykorzystywanie zasobów. Przedsiębiorstwa wdrażające rozwiązania i strategie Big Data powinny wcześnie i często oceniać swoje wymagania dotyczące kwalifikacji pracowników oraz z wyprzedzeniem identyfikować wszelkie potencjalne braki w tych kwalifikacjach. Takim niedoborom można zaradzić, szkoląc lub przekwalifikowując obecnych pracowników i zatrudniając nowych oraz korzystając z usług firm konsultingowych. |
Zoptymalizuj transfer wiedzy dzięki centrum doskonałości | Skorzystaj z podejścia opartego na centrum doskonałości, aby udostępniać wiedzę, kontrolować nadzór i zarządzać komunikacją w ramach projektu. Niezależnie od tego, czy firma dopiero wdraża technologię Big Data, czy też rozwija rozwiązanie już istniejące, koszty miękkie i twarde mogą być ponoszone wspólnie przez całe przedsiębiorstwo. Wykorzystanie tego podejścia może pomóc w zwiększeniu możliwości zapewnianych przez Big Data oraz dopracowaniu architektury informacji w bardziej uporządkowany i systematyczny sposób. |
Największy zwrot z inwestycji zapewnia dopasowanie danych nieustrukturyzowanych i ustrukturyzowanych | Z pewnością warto analizować wielkie zbiory danych samodzielnie. Ale jeszcze lepszy wgląd w działalność biznesową można uzyskać, łącząc i integrując wielkie zbiory danych o niskiej gęstości z danymi ustrukturyzowanymi, które przedsiębiorstwo już dziś wykorzystuje. Niezależnie od tego, czy firma rejestruje duże ilości danych dotyczących klientów, produktów, sprzętu czy też środowiska, celem jest wzbogacenie podstawowych podsumowań głównych i analitycznych o więcej istotnych danych, co pozwoli wyciągać lepsze wnioski. Istnieje na przykład różnica między opinią wszystkich klientów a nastrojami tylko najlepszych klientów firmy. Dlatego właśnie wiele osób postrzega technologię Big Data jako integralne rozszerzenie już istniejących możliwości analizy biznesowej, platformy hurtowni danych i architektury informacji. Należy pamiętać, że procesy i modele analityczne technologii Big Data mogą być obsługiwane zarówno przez człowieka, jak i przez maszynę. Możliwości analityczne technologii Big Data obejmują statystykę, analizę przestrzenną, semantykę, interaktywne wykrywanie i wizualizację. Korzystając z modeli analitycznych, można skorelować różne typy i źródła danych w celu tworzenia skojarzeń i dokonywania znaczących odkryć. |
Zaplanuj swoje laboratorium badawcze pod kątem wysokiej wydajności | Odkrywanie znaczenia danych nie zawsze jest proste. Czasami nawet nie wiemy, czego szukamy. Tego właśnie należy oczekiwać. Kierownictwo firmy i dział IT muszą wspierać ten „brak kierunku” lub „brak jasnych wymagań”. Jednocześnie ważne jest, aby analitycy i inżynierowie danych ściśle współpracowali z pionami biznesowymi, dążąc do identyfikacji kluczowych luk w wiedzy biznesowej i wymagań w tym zakresie. Aby wdrożyć interaktywną eksplorację danych i móc eksperymentować z algorytmami statystycznymi, firma potrzebuje obszarów roboczych o wysokiej wydajności. Upewnij się, że środowiska testowe mają niezbędne wsparcie i są odpowiednio zarządzane. |
Dostosuj się do chmurowego modelu operacyjnego | Procesy i użytkownicy technologii Big Data wymagają dostępu do szerokiej gamy zasobów, na potrzeby zarówno eksperymentów iteracyjnych, jak i wykonywania zadań produkcyjnych. Rozwiązanie Big Data obejmuje wszystkie rodzaje danych, w tym transakcyjne, podstawowe, referencyjne i sumaryczne. Analityczne środowiska testowe powinny być tworzone na żądanie. Zarządzanie zasobami ma kluczowe znaczenie dla zapewnienia kontroli nad całym przepływem danych, w tym nad przetwarzaniem wstępnym i końcowym, integracją, podsumowywaniem w bazie danych i modelowaniem analitycznym. Dobrze zaplanowana strategia udostępniania i bezpieczeństwa w chmurze prywatnej i publicznej stanowi integralny element wspierania tych zmieniających się wymagań. |