Wat is datawetenschap?

Wie houdt toezicht op het datawetenschappelijk proces?

Bij de meeste organisaties worden datawetenschapsprojecten doorgaans beheerd door drie soorten managers:

Zakelijke managers: deze managers werken samen met het datawetenschapsteam om het probleem te definiëren en een analysestrategie te ontwikkelen. Zij kunnen het hoofd zijn van een afdeling, zoals marketing, finance of verkooporganisatie, en hebben een datawetenschapsteam onder zich. Deze managers werken nauw samen met de datawetenschaps- en IT-manager om ervoor te zorgen dat projecten worden opgeleverd.

IT-managers: senior IT managers zijn verantwoordelijk voor de infrastructuur en architectuur die datawetenschapsactiviteiten ondersteunen. Zij houden continu toezicht op de werkzaamheden en het verbruik van middelen om ervoor te zorgen dat de datawetenschapsteams efficiënt en veilig werken. Mogelijk hebben zij ook de taak om IT-omgevingen te ontwikkelen en up-to-date te houden voor datawetenschapsteams.

Datawetenschapsmanagers: deze managers houden toezicht op het datawetenschapsteam en hun dagelijkse werkzaamheden. Het zijn teambuilders die het team zo aansturen dat er een goede balans ontstaat met de projectplanning en -monitoring.

Maar de belangrijkste speler in dit proces is de datawetenschapper.

Wat is een datawetenschapper?

Als specialisme staat datawetenschap nog in de kinderschoenen. Het stamt af van de vakgebieden statistische analyse en datamining. The Data Science Journal debuteerde in 2002 en wordt gepubliceerd door de International Council for Science: Committee on Data for Science and Technology. De functie van datawetenschapper werd in 2008 geïntroduceerd en steeg daarna snel in populariteit. Sindsdien is er een tekort aan datawetenschappers, ook al zijn er steeds meer hogescholen en universiteiten die opleidingen in datawetenschap aanbieden.

De taken van een datawetenschapper kunnen bestaan uit het ontwikkelen van strategieën voor het analyseren van data, het voorbereiden van data voor analyse, het bestuderen, analyseren en visualiseren van data, het ontwikkelen van datamodellen met behulp van programmeertaal zoals Python en R en het implementeren van modellen in applicaties.

De datawetenschapper zal niet snel in zijn eentje werken. Datawetenschap is namelijk het meest doeltreffend als er in teams wordt gewerkt. In een dergelijk team kan behalve een datawetenschapper ook een bedrijfsanalist zitten die het probleem definieert, een data-engineer die de data en de toegang ervan voorbereidt en beheert, een IT-architect die de onderliggende processen en infrastructuur overziet en een applicatieontwikkelaar die de analysemodellen of -resultaten verwerkt in applicaties en producten.

Uitdagingen bij het implementeren van datawetenschapsprojecten

Ondanks de hoge verwachtingen van datawetenschap en de enorme investeringen die er in datawetenschapsteams worden gedaan, lukt het veel bedrijven nog niet hun data ten volste te benutten. In hun haast om talenten aan te nemen en datawetenschapsprogramma's op te stellen, kregen sommige bedrijven te maken met inefficiënte teamworkflows waarbij verschillende mensen allerlei tools en processen gebruikten die uiteindelijk niet goed met elkaar bleken te werken. Zonder een meer gedisciplineerd en gecentraliseerd management zien leidinggevenden een optimaal resultaat van hun investeringen mogelijk aan hun neus voorbij gaan.

Een chaotische omgeving zorgt voor veel problemen.

Datawetenschappers kunnen niet efficiënt werken. Omdat een IT-beheerder toestemming moet geven om toegang te krijgen tot data, moeten datawetenschappers vaak lang wachten op de data en de middelen die ze nodig hebben om de data te analyseren. Als ze eenmaal toegang hebben, kan het datawetenschapsteam verschillende, mogelijk incompatibele, tools gebruiken voor analyse. Een datawetenschapper kan bijvoorbeeld een model ontwikkelen met het programma 'R', terwijl de applicatie waarin het model zal worden gebruikt met een ander programma is geschreven. En dat is ook de reden waarom het weken, of zelfs maanden, kan duren voordat de modellen in bruikbare applicaties in gebruik zijn genomen.

Applicatieontwikkelaars hebben geen toegang tot bruikbare machine learning. Soms zijn de machine learning-modellen die ontwikkelaars ontvangen nog niet klaar om in applicaties te worden gebruikt. En aangezien toegangspunten niet altijd even flexibel zijn, kunnen modellen niet in alle scenario's worden gebruikt en wordt de schaalbaarheid overgelaten aan de ontwikkelaar van de applicatie.

IT-beheerders besteden te veel tijd aan ondersteuning. Doordat het aantal open source-tools sterk toeneemt, wordt de lijst met tools waarvoor IT ondersteuning moet bieden steeds langer. Een datawetenschapper bij Marketing kan bijvoorbeeld andere tools gebruiken dan een datawetenschapper bij Finance. Teams kunnen ook verschillende workflows hebben, wat voor IT betekent dat ze voortdurend omgevingen moeten ombouwen en updaten.

Bedrijfsmanagers staan te ver van datawetenschap af. Datawetenschapsworkflows worden niet altijd geïntegreerd in de besluitvormingsprocessen en -systemen van een bedrijf, waardoor het voor bedrijfsmanagers moeilijk wordt om kennis te delen met datawetenschappers. Zonder die integratie is het voor managers moeilijk te begrijpen waarom het proces van prototype naar productie zo lang moet duren. Bovendien zullen zij niet snel achter investeringen staan in projecten die zij te traag vinden gaan.

Het datawetenschapsplatform biedt nieuwe mogelijkheden

Veel bedrijven zijn tot het besef gekomen dat datawetenschapsactiviteiten inefficiënt, onveilig en lastig te schalen zijn zonder geïntegreerd platform. Dit besef heeft tot de opkomst van datawetenschapsplatforms geleid. Dit soort platforms zijn in feite softwarehubs die de basis vormen van alle datawetenschappelijke werkzaamheden. Een goed platform neemt veel van de uitdagingen bij de implementatie van datawetenschap weg en zorgt ervoor dat bedrijven hun data sneller en efficiënter in inzichten kunnen omzetten.

Een gecentraliseerd machine learning-platform biedt datawetenschappers een op samenwerking gerichte omgeving waarin zij hun favoriete open source-tools kunnen gebruiken, terwijl al het werk automatisch wordt gesynchroniseerd via een versiebeheersysteem.

De voordelen van een datawetenschapsplatform

Een datawetenschapsplatform biedt teams de mogelijkheid om codes, resultaten en rapporten uit te wisselen, zodat de hoeveelheid overbodig werk kan worden teruggedrongen en innovatie wordt gestimuleerd. Het verwijdert knelpunten in de werkstroom door het beheer te vereenvoudigen en best practices op te nemen.

Over het algemeen zijn de beste datawetenschapsplatforms gericht op:

  • Zorgen dat datawetenschappers productiever worden door hen te helpen versnellen en modellen sneller en met minder fouten te leveren
  • Zorgen dat het voor datawetenschappers gemakkelijker wordt om te werken met grote volumes en uiteenlopende data
  • Leveren van vertrouwde kunstmatige intelligentie op bedrijfsniveau die onbevooroordeeld, controleerbaar en reproduceerbaar is

Datawetenschapsplatforms zijn gebouwd voor samenwerking door een reeks gebruikers, waaronder deskundige datawetenschappers, citizen-datawetenschappers, data-ingenieurs en machine learning-ingenieurs of specialisten. Zo kunnen datawetenschappers met behulp van een datawetenschapsplatform bijvoorbeeld modellen als API's implementeren, waardoor het eenvoudig is om ze in verschillende applicaties te integreren. Datewetenschappers hebben toegang tot tools, data en infrastructuur zonder hiervoor op IT te hoeven wachten.

De vraag op de markt naar datawetenschapsplatforms is explosief gestegen. Zelfs zoveel dat de jaarlijkse samengestelde groei van de platformmarkt naar verwachting de komende jaren met meer dan 39 procent zal toenemen tot een geschatte 385 miljard dollar in 2025.

De eisen die een datawetenschapper stelt aan een platform

Als u eenmaal hebt besloten de mogelijkheden van datawetenschapsplatforms verder te verkennen, zijn er enkele zaken om rekening mee te houden:

Kies een op uw project gebaseerde gebruikersinterface die samenwerking stimuleert. Het platform moet mensen in staat stellen om samen aan een model te werken, van idee tot en met ontwikkeling. Elk teamlid moet hierop zelf aan de benodigde data en middelen kunnen komen.

Geef prioriteit aan integratie en flexibiliteit. Zorg ervoor dat het platform ondersteuning biedt voor de nieuwste open source-tools, gangbare versiebeheerproviders (zoals GitHub, GitLab en Bitbucket) en een strak afgestemde integratie met andere bronnen.

Neem er functionaliteit van ondernemingsniveau in op. Zorg ervoor dat het platform kan meegroeien met uw team én uw bedrijf. Het platform moet een hoge beschikbaarheidsgraad bieden, een robuust beveiligingssysteem hebben en gelijktijdig gebruik door een groot aantal mensen ondersteunen.

Maak datawetenschap meer zelfvoorzienend. Zoek naar een platform dat de druk van IT en engineering kan wegnemen en het voor datawetenschappers gemakkelijk maakt om in een handomdraai omgevingen in werking te stellen, al hun werk bij te houden en modellen eenvoudig toe te passen op de productie.

Zorg voor een eenvoudigere modelimplementatie. Modelimplementatie en operationalisering is een van de belangrijkste stappen in de levenscyclus van machine learning, maar wordt vaak genegeerd. Zorg ervoor dat de service die u kiest het eenvoudiger maakt om modellen te operationaliseren, of het nu gaat om het leveren van API's of om ervoor te zorgen dat gebruikers modellen bouwen op een manier die eenvoudige integratie mogelijk maakt.

Wanneer een datawetenschapsplatform de juiste zet is

Uw organisatie is mogelijk klaar voor een datawetenschapsplatform, als u hebt gemerkt dat:

  • Productiviteit en samenwerking onder druk lijken te staan
  • Machine learning-modellen niet kunnen worden gecontroleerd of gereproduceerd
  • Modellen nooit in productie worden gezet

Een datawetenschapsplatform kan echte meerwaarde voor uw bedrijf opleveren. Het datawetenschapsplatform van Oracle omvat een breed scala aan services die een uitgebreide, end-to-end-ervaring bieden, die is ontworpen om de implementatie van modellen te versnellen en de wetenschappelijke resultaten van data te verbeteren.