Nie znaleziono wyników

Twoje wyszukiwanie nie dało żadnych wyników.

Zalecamy wypróbowanie następujących rozwiązań, aby znaleźć to, czego szukasz:

  • Sprawdź pisownię wyszukiwania słowa kluczowego.
  • Użyj synonimów dla wpisanego słowa kluczowego, na przykład spróbuj wpisać „aplikacja” zamiast „oprogramowanie”.
  • Rozpocznij nowe wyszukiwanie.
Skontaktuj się z nami Zaloguj się do Oracle Cloud

Czym jest analityka danych?

Definicja danologii

Danologia łączy wiele dziedzin, w tym statystykę, metodologie naukowe, sztuczną inteligencję (SI) oraz analizę danych w celu wydobycia wartości z danych. Osoby zajmujące się badaniem danych są nazywane badaczami danych. Dysponują one różnymi umiejętnościami, pozwalającymi im na analizę danych zebranych z sieci, smartfonów, od klientów, z czujników oraz z innych źródeł i stworzenia na ich podstawie wartościowych raportów.

Danologia obejmuje przygotowanie danych do analizy, w tym ich czyszczenie, agregowanie i operowanie nimi w celu przeprowadzenia zaawansowanej analizy. Aplikacje analityczne i badacze danych mogą następnie przejrzeć wyniki i odkryć zawarte w nich wzorce, udostępniając liderom biznesowym analizy oparte na faktach.

Danologia: Niewykorzystane źródło dla uczenia maszynowego

Analityka danych jest obecnie jedną z najbardziej interesujących dziedzin informatyki. Ale skąd wynika jej tak duże znaczenie?

Ponieważ firmy dysponują niewykorzystanymi skarbami, jakimi są dane. Ponieważ nowoczesna technologia umożliwiła tworzenie i przechowywanie coraz większej ilości informacji, wolumen danych gwałtownie wzrósł. Szacuje się, że 90 procent danych na świecie powstało w ciągu ostatnich dwóch lat. Przykładowo użytkownicy Facebooka przesyłają co godzinę 10 milionów zdjęć.

Te dane często jednak spoczywają bezużytecznie w bazach i jeziorach danych.

Bogactwo danych gromadzonych i przechowywanych za pomocą tych technologii może zaoferować rewolucyjne korzyści organizacjom i społeczeństwom na całym świecie – ale tylko jeśli będziemy w stanie je zinterpretować. Tu właśnie wkracza analityka data science.

Analityka danych ujawnia trendy i generuje wnioski, na podstawie których firmy mogą podejmować trafniejsze decyzje oraz tworzyć bardziej innowacyjne produkty i usługi. Co więcej, pozwala modelom nauczania maszynowego (machine learning, ML) na naukę z olbrzymich ilości przekazywanych im danych, dzięki czemu nie trzeba polegać głównie na domysłach analityków biznesowych opartych na dostępnych danych.

Dane to podstawa innowacyjności, lecz ich wartość wynika z informacji wyodrębnianych z nich przez analityków oraz z działań opartych na tych informacjach.

Na czym polega różnica między pojęciami „analityka danych”, „sztuczna inteligencja” i „samouczenie się maszyn”?

Lepsze zrozumienie danologii i możliwości jej wykorzystania wymaga znajomości innych związanych z nią terminów – sztucznej inteligencji (SI) oraz uczenia maszynowego. Często są one używane zamiennie, ale w rzeczywistości istnieją między nimi pewne subtelne różnice znaczeniowe.

Oto prosty podział:

  • Sztuczna inteligencja oznacza sprawienie, aby komputer w pewnym zakresie naśladował zachowanie człowieka.
  • Danologiato podzbiór SI, odnoszący się głównie do spokrewnionych obszarów statystyki, metodologii naukowych i analizy danych, które są wykorzystywane do wydobycia znaczenia i wskazówek z danych.
  • Uczenie maszynowe to kolejny podzbiór SI, składający się z technik pozwalających komputerom na wyodrębnienie informacji z danych i zastosowanie ich w aplikacjach SI.
    Na wszelki wypadek dodajemy jeszcze jedną definicję.
  • Uczenie głębokie to podzbiór uczenia maszynowego, dzięki któremu komputery mogą rozwiązywać bardziej złożone problemy.

Jak analityka danych przekształca biznes

Organizacje wykorzystują analitykę danych do przekształcania danych w przewagę konkurencyjną wynikającą z doskonalenia produktów i usług. Oto kilka przykładów zastosowania analityki danych i samouczenia się maszyn:

  • Określenie odpływu klientów poprzez analizę danych zebranych z centrów obsługi telefonicznej, tak aby dział marketingu mógł podjąć odpowiednie działania utrzymaniowe
  • Poprawa efektywności działania firm logistycznych poprzez analizę wzorców ruchu drogowego, warunków pogodowych i innych czynników, tak aby poprawiać czas dostawy i obniżać koszty
  • Poprawa trafności diagnoz medycznych poprzez analizowanie danych z badań lekarskich i zgłaszanych objawów, dzięki czemu lekarze mogą wcześniej wykrywać choroby i je skuteczniej leczyć
  • Optymalizacja łańcucha dostaw poprzez prognozowanie, kiedy może dojść do awarii sprzętu
  • Wykrywanie oszustw w usługach finansowych poprzez rozpoznawanie podejrzanych zachowań i anormalnych działań
  • Poprawa sprzedaży poprzez formułowanie rekomendacji dla klientów na podstawie wcześniejszych zakupów

Wiele przedsiębiorstw uznało analitykę danych za kierunek priorytetowy i inwestuje w nią znaczne środki. W najnowszej ankiecie firmy Gartner obejmującej ponad 3000 dyrektorów ds. informatyki respondenci uznali analitykę i analizę biznesową za najbardziej wyróżniające się technologie w swoich organizacjach. Ankietowani menedżerowie postrzegają te technologie jako najbardziej strategiczne dla swoich firm, dlatego intensywnie w nie inwestują.

Jak przeprowadza się analizy data science

Proces analizy danych i podejmowania na ich podstawie działań ma charakter iteracyjny, a nie liniowy, lecz tak zazwyczaj wygląda cykl analityki danych w projekcie modelowania danych:

Planowanie:  Określ projekt jego potencjalne wyniki.

Tworzenie modelu danych:  Badacze danych często używają różnych bibliotek open source lub narzędzi wbudowanych w bazy danych do tworzenia modeli uczenia maszynowego. Często użytkownicy oczekują interfejsów API, które pomogą im w pozyskiwaniu, profilowaniu i wizualizowaniu danych lub w tworzeniu funkcji. Potrzebują odpowiednich narzędzi, a także dostępu do właściwych danych i innych zasobów, takich jak moc obliczeniowa.

Ocena modelu:  Badacze danych muszą uzyskać wysoki procent dokładności swoich modelów, zanim mogą zdecydować się na ich zastosowanie. Zazwyczaj w fazie oceny modelu następuje zdefiniowanie kompleksowego zbioru wskaźników i wizualizacji służących do sprawdzenia działania modelu na nowych danych, a także sklasyfikowanie ich pod kątem przydatności w późniejszym wdrożeniu produkcyjnym. Ocena modelu wykracza poza suche dane wydajnościowe i uwzględnia oczekiwane bazowe zachowanie.

Objaśnienie modeli:  Opisanie w zrozumiały sposób wewnętrznych mechanizmów prowadzących do wyników uczenia maszynowego nie zawsze było możliwe, ale kwestia ta zyskuje na znaczeniu. Analitycy danych chcą otrzymywać zautomatyzowane wyjaśnienia dotyczące względnych wag i znaczenia czynników wpływających na generowanie prognoz, a także szczegółowe objaśnienia mechanizmów prognozowania w konkretnych modelach.

Wdrożenie modelu:  Proces wdrożenia wyszkolonego modelu uczenia maszynowego do odpowiednich systemów jest często trudny i pracochłonny. Można go ułatwić poprzez wdrożenie i praktyczne stosowanie modeli jako skalowalnych i bezpiecznych interfejsów API lub używanie modeli samouczenia się maszyn działających wewnątrz baz danych.

Monitorowanie modeli:  Niestety, samo wdrożenie modelu nie oznacza końca. Modele po wdrożeniu trzeba cały czas monitorować, aby mieć pewność, że działają poprawnie. Dane, na których wyszkolono model, po pewnym czasie mogą stracić przydatność dla przyszłych prognoz. Na przykład w systemach wykrywania oszustw trzeba pamiętać, że przestępcy cały czas wymyślają nowe sposoby włamywania się na konta.

Narzędzia do analityki danych

Proces budowania, oceniania, wdrażania i monitorowania modeli samouczenia się maszyn może być bardzo skomplikowany. Dlatego cały czas rośnie liczba narzędzi przeznaczonych do analityki danych. Analitycy danych korzystają z wielu różnych narzędzi, lecz do najczęściej używanych należą notatniki open source, czyli aplikacje internetowe do pisania i uruchamiania kodu, wizualizacji danych i wyświetlania wyników — wszystko w tym samym środowisku.

Do najpopularniejszych notatników należą Jupyter, RStudio i Zeppelin. Bardzo przydają się do prowadzenia analiz, ale mają ograniczenia, w przypadku gdy analitycy danych muszą pracować w zespole. W celu rozwiązania tego problemu opracowano platformy analityczne danych.

Aby wybrać odpowiednie narzędzia, musisz odpowiedzieć na następujące pytania: Jakich języków używają Twoi badacze danych? Jakie metody pracy preferują? Z jakich źródeł danych korzystają?

Na przykład niektórzy użytkownicy wolą mieć usługę niezależną od źródła danych, która korzysta z bibliotek open source. Inni preferują szybkość algorytmów samouczenia się maszyn działających wewnątrz baz danych.


Kto nadzoruje proces analizy data science?

W większości organizacji projekty związane z analityką danych zazwyczaj nadzorują menedżerowie należący do trzech kategorii:

Menedżerowie biznesowi:  Współpracują z zespołem badaczy danych w celu określenia problemu i stworzenia strategii analitycznej. Mogą to być dyrektorzy działów takich jak marketing, finanse lub sprzedaż, a zespół ds. analityki danych podlega im w hierarchii służbowej. Ściśle współpracują z kierownikiem IT i analiz data science, aby zapewnić realizację projektów.

Menedżerowie IT: Wyżsi rangą menedżerowie IT odpowiadają za infrastrukturę i architekturę wspierające analizę danych. Ciągle monitorują operacje i wykorzystanie zasobów w celu zapewnienia sprawnego i bezpiecznego działania zespołów ds. analityki danych. Mogą być również odpowiedzialni za budowę i aktualizację środowisk informatycznych dla zespołów zajmujących się analizami data science.

Menedżerowie danologii:  Nadzorują codzienną pracę zespołu badaczy danych. Tworzą zespoły oraz potrafią zrównoważyć ich rozwój z planowaniem i monitorowaniem projektu.

Ale najważniejszą rolę w całym procesie pełni analityk danych.

Kim jest analityk danych?

Analityka danych to młoda specjalizacja. Wywodzi się z analizy statystycznej i eksploracji danych. Periodyk The Data Science Journal zadebiutował w 2002 roku, kiedy to został opublikowany przez Komitet Danych dla Nauki i Techniki będący częścią Międzynarodowej Rady Nauki. Już przed 2008 r. zaczęto używać określenia analityk danych, a dyscyplina szybko się rozwinęła. Od tego czasu ciągle brakuje analityków data science, chociaż coraz więcej uczelni oferuje kierunki studiów umożliwiające zdobywanie stopni naukowych z tej dyscypliny.

Obowiązki analityka data science mogą obejmować opracowywanie strategii analizy danych, przygotowywanie danych do analizy, badanie, analizę i tworzenie wizualizacji danych, budowę modeli z danymi za pomocą języków programowania takich jak Python i R oraz wdrażanie modeli do aplikacji.

Analityk danych nie działa w pojedynkę. W rzeczywistości analitykę data science najskuteczniej przeprowadza się w zespołach. W takim zespole oprócz analityka danych może pracować analityk biznesowy, który definiuje problem, inżynier danych, który przygotowuje dane oraz zapewnia do nich dostęp, architekt IT, który nadzoruje podstawowe procesy i infrastrukturę, oraz programista aplikacji, który wdraża modele lub wyniki analizy w aplikacjach i produktach.

Wyzwania związane z wdrażaniem projektów z zakresu analityki danych

Mimo potencjalnych zalet analityki danych oraz ogromnych inwestycji w zespoły zajmujące się tego rodzaju analityką, wiele firm nie wykorzystuje w pełni potencjału tkwiącego w zgromadzonych przez nie danych. Podczas wyścigu o zatrudnienie talentów i stworzenie programów analiz data science niektóre firmy doświadczyły nieefektywnej organizacji pracy w zespole, ponieważ używano różnych niewspółpracujących ze sobą narzędzi i procesów. Bez bardziej dyscyplinującego centralnego zarządzania kierownictwo może nie osiągnąć pełnego zwrotu z inwestycji.

Takie chaotyczne środowisko stawia wiele wyzwań.

Analitycy danych nie mogą wydajnie pracować. Ponieważ dostęp do danych musi zostać przyznany przez administratora IT, analitycy data science często muszą długo czekać na dane i zasoby potrzebne do analizy. Po uzyskaniu dostępu, zespół badaczy danych może przeanalizować dane za pomocą różnych i potencjalnie niekompatybilnych narzędzi. Analityk może na przykład opracować model w języku R, ale docelowa aplikacja powstała w innym języku. Dlatego wdrożenie modeli w użyteczne aplikacje może zająć tygodnie, a nawet miesiące.

Programiści aplikacji nie mają dostępu do użytecznych rozwiązań samouczenia się maszyn. Czasami modele samouczenia się maszyn otrzymywane przez programistów są niegotowe do wdrożenia w aplikacjach. Biorąc pod uwagę potencjalną nieelastyczność punktów dostępu, może nie być możliwości wdrożenia modeli we wszystkich scenariuszach, a skalowalność pozostawia się w gestii twórcy aplikacji.

Administratorzy IT poświęcają zbyt dużo czasu na pomoc techniczną. Ze względu na rozpowszechnianie się narzędzi open source dział IT może obsługiwać ciągle rosnącą listę narzędzi. Analityk danych marketingowych może na przykład korzystać z innych narzędzi niż analityk zajmujący się finansami. Zespoły mogą mieć również różną organizację pracy, co oznacza konieczność nieustannego przebudowywania i aktualizacji środowisk przez dział IT.

Menedżerowie biznesowi trzymają się za daleko od analityki danych. Procesy danologiczne nie zawsze stanowią część procesów i systemów podejmowania decyzji biznesowych, co utrudnia menedżerom biznesowym pełną współpracę z danologami. Bez lepszej integracji menedżerom trudno zrozumieć, dlaczego przejście od prototypu do produkcji trwa tak długo — i mniej prawdopodobne jest, że będą wspierać inwestycje w projekty, które uważają za zbyt wolne.

Platforma do analityki danych zapewnia nowe możliwości

Wiele firm zdało sobie sprawę, że bez zintegrowanej platformy realizacja projektów z zakresu analityki danych byłaby nieefektywna, byłyby one niewłaściwie zabezpieczone i trudne do skalowania. Ta świadomość doprowadziła do opracowania platform analitycznych danych. Pełnią one funkcję hubów oprogramowania, wokół których odbywają się wszystkie analizy data science. Dobra platforma neutralizuje wiele problemów związanych z wdrażaniem analiz data science i pomaga firmom szybciej i wydajniej przekształcać dane we wnioski.

Dzięki scentralizowanej platformie z funkcjami samouczenia się maszyn analitycy danych mogą pracować w środowisku przeznaczonym do pracy zespołowej, wykorzystując ulubione narzędzia open source, a ich pracę synchronizuje system kontroli wersji.

Zalety platformy do analiz data science

Platforma analityczna danych ogranicza redundancję i stymuluje innowacje, umożliwiając zespołom dzielenie się kodem, wynikami i raportami. Usuwa przeszkody w organizacji pracy, upraszczając zarządzanie i uwzględniając najlepsze praktyki.

Ogólnie rzecz biorąc najlepsze platformy analityczne danych osiągają następujące cele:

  • Poprawa wydajności pracy analityków danych poprzez wsparcie ich w dostarczaniu modeli szybciej i z mniejszą ilością błędów
  • Ułatwienie analitykom danych pracy z dużymi wolumenami różnorodnych danych
  • Udostępnienie zaufanych, bezstronnych, weryfikowalnych i działających powtarzalnie narzędzi sztucznej inteligencji klasy korporacyjnej

Platformy analityczne danych buduje się do współpracy wielu różnych typów użytkowników, w tym analityków danych, analityków danych spoza działu IT, inżynierów danych oraz inżynierów/specjalistów ds. samouczenia się maszyn. Platforma analityczna danych może na przykład pozwalać analitykom danych na wdrażanie modeli jako interfejsów programistycznych (API), co ułatwi ich integrację w różnych aplikacjach. Analitycy mogą uzyskać dostęp do narzędzi, danych i infrastruktury bez konieczności oczekiwania na dział IT.

Na rynku obserwuje się prawdziwą eksplozję popytu na platformy analityczne danych. Oczekuje się, że rynek takich platform wzrośnie łącznie w ciągu najbliższych lat o ponad 39 procent z prognozowaną wartością 385 mld USD do 2025 r.

Czego analityk danych potrzebuje na platformie

Chcąc przeanalizować możliwości platform do analizy danych, warto wziąć pod uwagę kluczowe możliwości:

Wybierz zorientowany projektowo interfejs użytkownika zachęcający do pracy zespołowej. Platforma powinna umożliwić pracownikom wspólną pracę nad modelem: od koncepcji do ostatecznego wdrożenia. Powinna także zapewniać każdemu członkowi zespołu samoobsługowy dostęp do danych i zasobów.

Priorytetowo potraktuj integrację i elastyczność. Upewnij się, że platforma obsługuje najnowsze narzędzia open source, popularnych dostawców kontroli wersji, takich jak GitHub, GitLab i Bitbucket oraz zapewnia ścisłą integrację z innymi zasobami.

Uwzględnij funkcje klasy korporacyjnej. Zadbaj o możliwość skalowania platformy wraz z rozwojem zespołu. Platforma powinna się charakteryzować wysoką dostępnością, mieć niezawodną kontrolę dostępu i obsługiwać wielu użytkowników równocześnie.

Nadaj analityce danych charakter bardziej samoobsługowy. Poszukaj platformy, która odciąży dział IT i techniczny, a przy tym ułatwi analitykom danych błyskawiczne rozwijanie środowisk, umożliwi śledzenie całej ich pracy oraz ułatwi wdrażanie modeli w środowisku produkcyjnym.

Upewnij się, że platforma ułatwia wdrażanie modeli. Wdrażanie i praktyczne stosowanie modeli jest jednym z najważniejszych etapów cyklu samouczenia się maszyn, ale często pomijanym. Upewnij się, że wybrana usługa ułatwia praktyczne stosowanie modeli, bez względu na to, czy udostępnia interfejsy API, czy też pozwala użytkownikom budować modele w sposób umożliwiający łatwą integrację.

Kiedy warto wdrożyć platformę analityczną danych

Oto kilka objawów sugerujących, że w organizacji warto rozważyć wdrożenie platformy analitycznej danych:

  • Występują problemy z wydajnością pracy i organizowaniem pracy zespołowej
  • Nie można kontrolować modeli samouczenia się maszyn ani uzyskać ich powtarzalnego działania
  • Modele nigdy nie trafiają do wdrożenia produkcyjnego

Platforma analityczna danych może tworzyć realną wartość dodaną w organizacji. platforma danologiczna oferowana przez Oracle zawiera wiele różnych usług, które razem tworzą kompleksowe środowisko przyspieszające wdrażanie modeli i ulepszające rezultaty badań danych.