Co je datová věda?

Datová věda je mezioborová oblast, která využívá vědecké metody, procesy, algoritmy a systémy k získávání užitku z dat. Datoví vědci kombinují různé znalosti, mezi které patří statistika, informatika a znalostí podnikatelských odvětví. Pomocí těchto znalostí analyzují data získaná z webu, chytrých telefonů, od zákazníků, ze snímačů a dalších zdrojů.

Datová věda odhaluje trendy a vytváří poznatky, které mohou podniky využít k lepšímu rozhodování a vytváření většího počtu inovativních produktů a služeb. Data jsou základem inovace, ale jejich užitečnost vyplývá z informací, které z nich datoví vědci vytěží a následně se jimi řídí.

 

Nástroje pro datové vědce

Datoví vědci používají mnoho druhů nástrojů. Jedním z nejběžnějších jsou aplikace typu „zápisník“ s otevřeným zdrojovým kódem. Jsou to webové aplikace pro psaní a spouštění kódu, vizualizaci dat a zobrazení výsledků – vše ve stejném prostředí. Mezi nejoblíbenější aplikace typu „zápisník“ patří Jupyter, RStudio a Zepplin. Aplikace typu „zápisník“ jsou velmi užitečné pro provádění analýzy. Mají však svá omezení, když datoví vědci potřebují pracovat jako tým. K vyřešení tohoto problému slouží platformy pro datovou vědu.

Datová věda a narůst množství dat

Datová věda a nárůst množství dat

Protože moderní technika umožnila vytvářet a ukládat stále větší množství informací, objem dat narostl. Odhaduje se, že v posledních dvou letech bylo vytvořeno 90 procent dat celého světa. Uživatelé Facebooku například nahrají každou hodinu 10 milionů fotografií. Podle plánu naroste počet připojených zařízení na světě – internet věcí (IoT) – dok roku 2025 na více než 75 miliard.

Množství dat, které tyto technologie shromažďují a uchovávají, může přinést průlomový přínos organizacím a společnostem po celém světě, ale pouze pokud je budeme schopni interpretovat. A k tomu slouží datová věda.

Na této informační grafice naleznete podrobnější informace o datech a datové vědě.

Vznik povolání datového vědce

Vznik povolání datového vědce

Datová věda jakožto specializace je novou záležitostí. Vznikla z odvětví statistické analýzy a dolování dat. Časopis Data Science Journal zahájil svou činnost v roce 2002 a vydává jej Mezinárodní vědecká rada: výbor pro data pro vědu a techniku. V roce 2008 se objevil pojem datového vědce a obor se začal prudce rozvíjet. Od té doby je datových vědců nedostatek, i když stále více a více vysokých škol začalo nabízet studium datové vědy.

Mezi úkoly datových vědců může patřit rozvoj strategií analýzy dat, příprava dat pro analýzu, studium, analýza a vizualizace dat, budování modelů s daty pomocí programovacích jazyků, jako jsou Python a R a zavádění modelů do aplikací.

Datový vědec nepracuje sám. Ve skutečnosti se data vědecky zkoumají nejlépe v týmech. Vedle datového vědce může tým zahrnovat obchodního analytika, který definuje problém, datového inženýra, který připravuje data a přístup k nim, architekta IT, který dohlíží na základní procesy a infrastrukturu, a vývojáře aplikací, který nasazuje modely nebo výstupy analýzy do aplikací a produktů.

Jak datová věda transformuje podnikání

Organizace používají týmy datových vědců k tomu, aby svá data proměnily na konkurenční výhodu prostřednictvím vylepšených produktů a služeb. Firmy například analyzují data shromážděná ze zákaznických center a identifikují zákazníky, u kterých hrozí odchod k jinému prodejci, takže marketingové oddělení může podniknout kroky k jejich udržení. Logistické společnosti analyzují modely silničního provozu, povětrnostní podmínky a další faktory ke zlepšení rychlosti dodání a snížení nákladů. Společnosti poskytující zdravotní péči analyzují údaje z lékařských testů a hlásí příznaky, aby pomohly lékařům lépe diagnostikovat onemocnění a účinněji je léčit.

Většina společností považuje datovou vědu za svou prioritu a mohutně do ní investuje. V nedávném průzkumu společnosti Gartner více než 3 000 vedoucích pracovníků v oblasti informačních technologií respondenti označili analytiku a metody business intelligence za klíčové technologie ve svých organizacích. Respondenti z řad vedoucích pracovníků informačních technologií považují strategický význam těchto technologií za nejvyšší pro svou společnost. Z tohoto důvodu tyto technologie přitahují nejvíce nových investic.

V čem spočívá práce datového vědce

V čem spočívá práce datového vědce

Proces analýzy dat a přijímání opatření na základě dat je spíše iterativní než lineární, nicméně v projektech modelování dat se obvykle postupuje takto:

  • Plán: Definuje se projekt a jeho potenciální výstupy.
  • Příprava: Vytvoří se pracovní prostředí, datovým vědcům se poskytnou správné nástroje a přístup ke správným datům a dalším zdrojům, například výpočetnímu výkonu.
  • Naplnění: Pracovní prostředí se naplní daty.
  • Zkoumání: Data se analyzují, studují a vizualizují.
  • Modelování: Sestavují se, učí a ověřují modely, aby fungovaly podle požadavků.
  • Nasazení: Modely se nasadí do produkčního prostředí.

Kdo dohlíží na proces datové vědy?

Kdo dohlíží na proces datové vědy?

Na proces datové vědy obvykle dohlíží tři druhy vedoucích pracovníků:

  • Obchodní manažeři: Tito manažeři pracují s týmem datových vědců, aby definovali problém a vyvinuli strategii analýzy. Mohou zastávat funkci vedoucího oddělení, jako je marketing, finance nebo prodej, a tým datových vědců je jim podřízen. Úzce spolupracují s manažerem pro datovou vědu a manažerem IT, aby zajistili splnění projektů.
  • Manažeři IT: Vedoucí pracovníci IT odpovídají za plánování infrastruktury a za architekturu, která bude podporovat operace datové vědy. Průběžně monitorují operace a využívání zdrojů, aby zajistili efektivní a bezpečné fungování týmů datových vědců. Mohou také odpovídat za vytváření a aktualizaci prostředí pro týmy datových vědců.
  • Manažeři pro datovou vědu: Tito manažeři dohlížejí na tým datových vědců a jejich každodenní práci. Jejich úkolem je sestavit tým a dokážou nalézt rovnováhu mezi rozvojem týmu a plánováním a monitoringem projektů.

Výzvy implementace datové vědy

I přes slibné vyhlídky datové vědy a obrovské investice do týmů datových vědců mnoho společností nezíská ze svých dat maximální užitek. Ve své honbě po talentech a vytváření programů datové vědy zaznamenaly některé společnosti neefektivní týmové pracovní postupy, kdy různí lidé používali různé nástroje a procesy, které společně nefungují dobře. Bez dalšího disciplinovaného centrálního řízení existuje riziko, že se vedení nevrátí všechny investice. Toto chaotické prostředí představuje mnoho výzev.

Datoví vědci nemohou efektivně pracovat. Protože přístup k datům musí být udělen správcem IT, datoví vědci často dlouho čekají na data a zdroje, které potřebují analyzovat. Jakmile mají přístup, může tým datových vědců analyzovat data pomocí různých a možná nekompatibilních nástrojů. Například určitý vědec může vyvinout model v jazyce R, ale aplikace, ve které se bude používat, je napsána v jiném jazyce. Z tohoto důvodu může trvat týdny nebo dokonce i měsíce, než lze modely nasadit do užitečných aplikací.

Vývojáři aplikací nemají přístup k použitelnému strojovému učení. Někdy musí být modely strojového učení, které vývojáři obdrží, přeprogramovány nebo nejsou připraveny k nasazení v aplikacích. A protože přístupové body mohou být nepružné, nelze modely nasadit ve všech scénářích a škálovatelnost je ponechána na vývojáři aplikace.

Správci IT stráví příliš mnoho času podporou. Vzhledem k šíření nástrojů s otevřeným zdrojovým kódem mají informační technologie stále se rozšiřující seznam nástrojů, které je třeba podporovat. Například datový vědec v oboru marketingu může používat různé nástroje než datový vědec v oboru financí. Týmy mohou mít také různé pracovní postupy, což znamená, že oddělení IT musí neustále přepracovávat a aktualizovat prostředí.

Obchodní manažeři jsou z datové vědy příliš vyloučeni. Pracovní postupy datové vědy nejsou vždy integrovány do firemních procesů a systémů rozhodování, což stěžuje obchodním manažerům možnost kvalifikovaně spolupracovat s datovými vědci. Bez lepší integrace obchodní manažeři jen těžkou chápou, proč to trvá tak dlouho převést prototyp do produkčního prostředí a je proto méně pravděpodobné, že podpoří investice do projektů, které považují za příliš pomalé.

Společnosti si uvědomily, že bez integrované platformy by byla práce datových vědců neefektivní, nezabezpečená a obtížně měřitelná. Toto poznání vedla ke vzniku platforem pro datovou vědu. Tyto platformy jsou softwarové uzly, kolem kterých probíhá veškerá datová věda. Dobrá platforma zmírňuje mnoho výzev v oblasti implementace datové vědy a pomáhá podnikům rychleji a efektivněji přeměňovat data na poznatky.

S centralizovanou platformou mohou datoví vědci pracovat v kolaborativním prostředí se svými oblíbenými nástroji s otevřeným zdrojovým kódem, přičemž veškerou jejich práci synchronizuje systém pro správu verzí.

Uspějte s platformou pro datovou vědu, která podporuje soběstačnost.

Výhody platformy pro datovou vědu

Výhody platformy pro datovou vědu

Platforma pro datovou vědu snižuje nadbytečnost a podporuje inovace tím, že umožňuje týmům sdílet kód, výsledky a zprávy. Odstraňuje překážky v pracovním procesu tím, že zjednodušuje řízení a využívá nástroje, systémy a infrastrukturu s otevřeným zdrojovým kódem.

Například platforma pro datovou vědu může datovým vědcům umožnit nasazení modelů jako aplikačních rozhraní API, což usnadňuje jejich integraci do různých aplikací. Datoví vědci mají přístup k nástrojům, datům a infrastruktuře, aniž by museli čekat na pracovníky IT.

Poptávka po platformách pro datovou vědu na trhu prudce narostla. Ve skutečnosti se v příštích několika letech očekává růst trhu s platformami s kumulovaným ročním ukazatelem růstu vyšším než 39 % a předpokládá se, že do roku 2025 dosáhne hodnoty 385 miliard USD.

Pokud jste připraveni prostudovat možnosti platforem pro datovou vědu, je třeba zvážit některé klíčové funkce:

  • Zvolte uživatelské rozhraní založené na projektech, které podporuje spolupráci. . Platforma by měla umožnit lidem spolupracovat na modelu, od koncepce až po konečný vývoj. Každému členovi týmu by měla poskytnout samoobslužný přístup k datům a zdrojům.
  • Upřednostněte integraci a flexibilitu. Ujistěte se, že platforma zahrnuje podporu nejnovějších nástrojů s otevřeným kódem, poskytovatele společné správy verzí, jako jsou GitHub, GitLab a Bitbucket, a těsnou integraci s dalšími zdroji.
  • Zvolte platformu, která zahrnuje funkce podnikové třídy. Ujistěte se, že platforma může růst s vaší firmou a vaším týmem. Platforma by měla mít vysokou dostupnost, měla by mít robustní řízení přístupu a měla by podporovat velký počet souběžných uživatelů.
  • Zajistěte, aby byla datové věda více samoobslužná. Zvažte platformu, která zbavuje povinností pracovníky IT a techniky a usnadňuje datovým vědcům, aby okamžitě zprovozňovali prostředí, sledovali veškerou svou práci a jednoduše nasazovali modely do produkčního prostředí.

Společnosti marně hledají talentované datové vědce

Hledání a nábor talentů je největší překážkou, které podniky čelí, když chtějí využít datovou vědu k získání konkurenční výhody. Podle nedávného průzkumu společnosti McKinsey & Company polovina vedoucích pracovníků v různých geografických oblastech a průmyslových odvětvích zaznamenala větší obtíže při náboru talentovaných analytiků než jakýkoli jiných pozic. Podle 40 procent dotázaných je problémem také udržení pracovníků.

Společnost McKinsey uvádí, že vedle datových vědců chybí pracovní síla také v dalších analytických kategoriích. Chybí zejména kvalifikovaní pracovníci, kteří dokážou přecházet mezi problémy odvětví a správným používáním datové vědy, a pracovníci, kteří dobře ovládají vizualizaci dat.

Společnosti Indeed.com, Glassdoor a Bloomberg poskytují další důkaz, že existuje značná poptávka po talentovaných datových vědcích:

  • Počet nabízených pracovních míst pro datové vědce na serveru Indeed.com mezi lednem 2015 a lednem 2018 vzrostl o 75 procent. Podle informací agentury Bloomberg vzrostla poptávka po pracovních pozicích datového vědce o 65 procent.
  • Společnost Glassdoor odhaduje, že poptávka po datových vědcích v roce 2018 překročila nabídku o 50 procent.
  • Společnost Glassdoor vyhodnotila pracovní pozici datového vědce jako nejatraktivnější pozici v Americe již třetí rok po sobě.

Knihovna učení založeného na umělé inteligenci

Co je umělá inteligence?
Další informace o umělé inteligenci

Umělá inteligence umožňuje technologiím a strojům zpracovávat data za účelem učení, vývoje a plnění úkoly lidí.

Další informace o strojovém učení
Další informace o strojovém učení

Strojové učení, podskupina umělé inteligence, se zaměřuje na vývojové systémy, které se učí prostřednictvím dat s cílem automatizovat a zkrátit rozhodování a urychlit zhodnocení investic.

Novinky a názory
Novinky a názory

Strojové učení, umělá inteligence a datová věda mění způsob, jakým firmy přistupují ke složitým problémům, aby změnili trajektorii svých průmyslových odvětví. Přečtěte si nejnovější články, abyste pochopili přístup vašeho odvětví a vašich kolegů k těmto technologiím.