W większości organizacji projekty związane z analityką danych zazwyczaj nadzorują menedżerowie należący do trzech kategorii:
Menedżerowie biznesowi: Współpracują z zespołem badaczy danych w celu określenia problemu i stworzenia strategii analitycznej. Mogą to być dyrektorzy działów takich jak marketing, finanse lub sprzedaż, a zespół ds. analityki danych podlega im w hierarchii służbowej. Ściśle współpracują z kierownikiem IT i analiz data science, aby zapewnić realizację projektów.
Menedżerowie IT: Wyżsi rangą menedżerowie IT odpowiadają za infrastrukturę i architekturę wspierające analizę danych. Ciągle monitorują operacje i wykorzystanie zasobów w celu zapewnienia sprawnego i bezpiecznego działania zespołów ds. analityki danych. Mogą być również odpowiedzialni za budowę i aktualizację środowisk informatycznych dla zespołów zajmujących się analizami data science.
Menedżerowie danologii: Nadzorują codzienną pracę zespołu badaczy danych. Tworzą zespoły oraz potrafią zrównoważyć ich rozwój z planowaniem i monitorowaniem projektu.
Ale najważniejszą rolę w całym procesie pełni analityk danych.
Analityka danych to młoda specjalizacja. Wywodzi się z analizy statystycznej i eksploracji danych. Periodyk The Data Science Journal zadebiutował w 2002 roku, kiedy to został opublikowany przez Komitet Danych dla Nauki i Techniki będący częścią Międzynarodowej Rady Nauki. Już przed 2008 r. zaczęto używać określenia analityk danych, a dyscyplina szybko się rozwinęła. Od tego czasu ciągle brakuje analityków data science, chociaż coraz więcej uczelni oferuje kierunki studiów umożliwiające zdobywanie stopni naukowych z tej dyscypliny.
Obowiązki analityka data science mogą obejmować opracowywanie strategii analizy danych, przygotowywanie danych do analizy, badanie, analizę i tworzenie wizualizacji danych, budowę modeli z danymi za pomocą języków programowania takich jak Python i R oraz wdrażanie modeli do aplikacji.
Analityk danych nie działa w pojedynkę. W rzeczywistości analitykę data science najskuteczniej przeprowadza się w zespołach. W takim zespole oprócz analityka danych może pracować analityk biznesowy, który definiuje problem, inżynier danych, który przygotowuje dane oraz zapewnia do nich dostęp, architekt IT, który nadzoruje podstawowe procesy i infrastrukturę, oraz programista aplikacji, który wdraża modele lub wyniki analizy w aplikacjach i produktach.
Mimo potencjalnych zalet analityki danych oraz ogromnych inwestycji w zespoły zajmujące się tego rodzaju analityką, wiele firm nie wykorzystuje w pełni potencjału tkwiącego w zgromadzonych przez nie danych. Podczas wyścigu o zatrudnienie talentów i stworzenie programów analiz data science niektóre firmy doświadczyły nieefektywnej organizacji pracy w zespole, ponieważ używano różnych niewspółpracujących ze sobą narzędzi i procesów. Bez bardziej dyscyplinującego centralnego zarządzania kierownictwo może nie osiągnąć pełnego zwrotu z inwestycji.
Takie chaotyczne środowisko stawia wiele wyzwań.
Analitycy danych nie mogą wydajnie pracować. Ponieważ dostęp do danych musi zostać przyznany przez administratora IT, analitycy data science często muszą długo czekać na dane i zasoby potrzebne do analizy. Po uzyskaniu dostępu, zespół badaczy danych może przeanalizować dane za pomocą różnych i potencjalnie niekompatybilnych narzędzi. Analityk może na przykład opracować model w języku R, ale docelowa aplikacja powstała w innym języku. Dlatego wdrożenie modeli w użyteczne aplikacje może zająć tygodnie, a nawet miesiące.
Programiści aplikacji nie mają dostępu do użytecznych rozwiązań samouczenia się maszyn. Czasami modele samouczenia się maszyn otrzymywane przez programistów są niegotowe do wdrożenia w aplikacjach. Biorąc pod uwagę potencjalną nieelastyczność punktów dostępu, może nie być możliwości wdrożenia modeli we wszystkich scenariuszach, a skalowalność pozostawia się w gestii twórcy aplikacji.
Administratorzy IT poświęcają zbyt dużo czasu na pomoc techniczną. Ze względu na rozpowszechnianie się narzędzi open source dział IT może obsługiwać ciągle rosnącą listę narzędzi. Analityk danych marketingowych może na przykład korzystać z innych narzędzi niż analityk zajmujący się finansami. Zespoły mogą mieć również różną organizację pracy, co oznacza konieczność nieustannego przebudowywania i aktualizacji środowisk przez dział IT.
Menedżerowie biznesowi trzymają się za daleko od analityki danych. Procesy danologiczne nie zawsze stanowią część procesów i systemów podejmowania decyzji biznesowych, co utrudnia menedżerom biznesowym pełną współpracę z danologami. Bez lepszej integracji menedżerom trudno zrozumieć, dlaczego przejście od prototypu do produkcji trwa tak długo — i mniej prawdopodobne jest, że będą wspierać inwestycje w projekty, które uważają za zbyt wolne.
Wiele firm zdało sobie sprawę, że bez zintegrowanej platformy realizacja projektów z zakresu analityki danych byłaby nieefektywna, byłyby one niewłaściwie zabezpieczone i trudne do skalowania. Ta świadomość doprowadziła do opracowania platform analitycznych danych. Pełnią one funkcję hubów oprogramowania, wokół których odbywają się wszystkie analizy data science. Dobra platforma neutralizuje wiele problemów związanych z wdrażaniem analiz data science i pomaga firmom szybciej i wydajniej przekształcać dane we wnioski.
Dzięki scentralizowanej platformie z funkcjami samouczenia się maszyn analitycy danych mogą pracować w środowisku przeznaczonym do pracy zespołowej, wykorzystując ulubione narzędzia open source, a ich pracę synchronizuje system kontroli wersji.
Platforma analityczna danych ogranicza redundancję i stymuluje innowacje, umożliwiając zespołom dzielenie się kodem, wynikami i raportami. Usuwa przeszkody w organizacji pracy, upraszczając zarządzanie i uwzględniając najlepsze praktyki.
Ogólnie rzecz biorąc najlepsze platformy analityczne danych osiągają następujące cele:
Platformy analityczne danych buduje się do współpracy wielu różnych typów użytkowników, w tym analityków danych, analityków danych spoza działu IT, inżynierów danych oraz inżynierów/specjalistów ds. samouczenia się maszyn. Platforma analityczna danych może na przykład pozwalać analitykom danych na wdrażanie modeli jako interfejsów programistycznych (API), co ułatwi ich integrację w różnych aplikacjach. Analitycy mogą uzyskać dostęp do narzędzi, danych i infrastruktury bez konieczności oczekiwania na dział IT.
Na rynku obserwuje się prawdziwą eksplozję popytu na platformy analityczne danych. Oczekuje się, że rynek takich platform wzrośnie łącznie w ciągu najbliższych lat o ponad 39 procent z prognozowaną wartością 385 mld USD do 2025 r.
Chcąc przeanalizować możliwości platform do analizy danych, warto wziąć pod uwagę kluczowe możliwości:
Wybierz zorientowany projektowo interfejs użytkownika zachęcający do pracy zespołowej. Platforma powinna umożliwić pracownikom wspólną pracę nad modelem: od koncepcji do ostatecznego wdrożenia. Powinna także zapewniać każdemu członkowi zespołu samoobsługowy dostęp do danych i zasobów.
Priorytetowo potraktuj integrację i elastyczność. Upewnij się, że platforma obsługuje najnowsze narzędzia open source, popularnych dostawców kontroli wersji, takich jak GitHub, GitLab i Bitbucket oraz zapewnia ścisłą integrację z innymi zasobami.
Uwzględnij funkcje klasy korporacyjnej. Zadbaj o możliwość skalowania platformy wraz z rozwojem zespołu. Platforma powinna się charakteryzować wysoką dostępnością, mieć niezawodną kontrolę dostępu i obsługiwać wielu użytkowników równocześnie.
Nadaj analityce danych charakter bardziej samoobsługowy. Poszukaj platformy, która odciąży dział IT i techniczny, a przy tym ułatwi analitykom danych błyskawiczne rozwijanie środowisk, umożliwi śledzenie całej ich pracy oraz ułatwi wdrażanie modeli w środowisku produkcyjnym.
Upewnij się, że platforma ułatwia wdrażanie modeli. Wdrażanie i praktyczne stosowanie modeli jest jednym z najważniejszych etapów cyklu samouczenia się maszyn, ale często pomijanym. Upewnij się, że wybrana usługa ułatwia praktyczne stosowanie modeli, bez względu na to, czy udostępnia interfejsy API, czy też pozwala użytkownikom budować modele w sposób umożliwiający łatwą integrację.
Oto kilka objawów sugerujących, że w organizacji warto rozważyć wdrożenie platformy analitycznej danych:
Platforma analityczna danych może tworzyć realną wartość dodaną w organizacji. platforma danologiczna oferowana przez Oracle zawiera wiele różnych usług, które razem tworzą kompleksowe środowisko przyspieszające wdrażanie modeli i ulepszające rezultaty badań danych.