Michael Chen | Content Strategist | 23 september 2024
Big data verwijst naar de ongelooflijke hoeveelheid gestructureerde en ongestructureerde informatie die mensen en machines genereren. Volgens PwC gaat het dagelijks om meerdere petabytes. Denk aan de berichten op sociale media die we uitpluizen om het sentiment van klanten te peilen, sensordata die de status van machines tonen en financiële transacties waarbij geld razendsnel wordt verplaatst. Deze informatie is te omvangrijk en te divers en komt zo snel op ons af dat verwerking door ouderwetse dataverwerkingstools en -praktijken geen doen is.
Daarnaast is de informatie veel te waardevol om niet te analyseren. Big data biedt de mogelijkheid om inzichten te verkrijgen uit deze brede verzameling data om organisaties te helpen efficiënter te worden, sneller te innoveren, meer geld te verdienen, kortom: succesvoller te zijn.
Dankzij de vooruitgang op het gebied van analyses en technologie en tools voor machine learning is het analyseren van big data nu toegankelijk voor elk bedrijf.
Big data verwijst naar extreem grote en complexe datasets die niet eenvoudig kunnen worden beheerd of geanalyseerd met traditionele dataverwerkingstools, met name spreadsheets. Big data omvat gestructureerde data, zoals een voorraaddatabase of een lijst met financiële transacties, maar ook ongestructureerde data, zoals berichten op sociale media of video's. Ook gemengde datasets, bijvoorbeeld om grote taalmodellen voor AI te trainen, vallen hieronder. Deze datasets kunnen variëren van de werken van Shakespeare tot de begrotingsspreadsheets van een bedrijf van de afgelopen 10 jaar.
Big data is alleen maar groter geworden doordat recente technologische doorbraken de kosten van dataopslag en rekenkracht aanzienlijk hebben verlaagd, waardoor het gemakkelijker en goedkoper dan ooit is geworden om data op te slaan. Met dat toegenomen volume kunnen bedrijven nauwkeuriger en gerichter zakelijke beslissingen nemen op basis van hun data. Het optimaal benutten van big data heeft echter niet alleen te maken met het analyseren ervan. Dat is weer een ander voordeel. Het is een geheel ontdekkingsproces waarvoor intelligente analisten, zakelijke gebruikers en leidinggevenden nodig zijn die de juiste vragen stellen, patronen herkennen, goed onderbouwde aannames doen en gedrag voorspellen.
Van oudsher hebben we drie kenmerken toegekend aan big data: verscheidenheid, omvang en snelheid. De afgelopen jaren zijn er echter nog twee kenmerken bijgekomen: waarde en waarheidsgetrouwheid.
Deze toevoegingen zijn logisch omdat data tegenwoordig gelijkstaat aan kapitaal. Denk aan enkele van 's werelds grootste technologiebedrijven. Denk maar aan de grootste techbedrijven ter wereld. Veel van de producten die ze aanbieden zijn gebaseerd op hun data, die ze voortdurend analyseren om efficiënter te werken en nieuwe initiatieven te ontwikkelen. Succes hangt af van alle vijf de kenmerken.
Hoewel het concept van big data relatief nieuw is, gaat de noodzaak voor het beheren van grote datasets terug tot de jaren zestig en zeventig toen de eerste datacenters werden gebouwd en de relationele database werd ontwikkeld.
Verleden. Rond 2005 begonnen mensen zich te realiseren hoeveel data er via Facebook, YouTube en andere online services werd gegenereerd. Apache Hadoop, een open-sourceframework dat specifiek werd opgezet om big data-sets op te slaan en te analyseren, werd in datzelfde jaar ontwikkeld. In die tijd begon NoSQL ook aan populariteit te winnen.
Heden. De ontwikkeling van open-sourceframeworks, zoals Apache Hadoop (en recenter Apache Spark), was essentieel voor de groei van big data omdat ze big data gemakkelijker maken om mee te werken en het goedkoper is om big data op te slaan. In de jaren daarna is de hoeveelheid big data explosief toegenomen. Gebruikers genereren nog steeds enorme hoeveelheden data, maar het zijn niet alleen mensen die data genereren.
Met de komst van het Internet of Things (IoT) zijn meer objecten en apparaten verbonden met internet, waardoor data wordt verzameld over gebruikspatronen van klanten en productprestaties. Door de opkomst van machine learning wordt er nog meer data geproduceerd.
Toekomst. Hoewel big data al een lange weg heeft afgelegd, neemt de waarde ervan alleen maar toe naarmate generatieve AI en cloudcomputing steeds meer worden gebruikt in bedrijven. De cloud biedt ware elastische schaalbaarheid, waarbij ontwikkelaars eenvoudig ad-hocclusters kunnen opzetten om een subset van data te testen. En grafiekdatabases worden ook steeds belangrijker door hun vermogen om enorme hoeveelheden data weer te geven op een manier die analytics snel en omvattend maakt.
Met behulp van big data-services kunnen trends en patronen beter worden begrepen door verschillende datasets te integreren tot een compleet beeld. Deze samenvoeging maakt niet alleen retrospectieve analyse mogelijk, maar verbetert ook de voorspellende mogelijkheden, waardoor nauwkeurigere prognoses en strategische besluitvorming mogelijk worden. In combinatie met AI overstijgt big data bovendien traditionele analyses, waardoor organisaties innovatieve oplossingen kunnen ontwikkelen en dankzij de transformatie opzienbarende resultaten kunnen behalen.
Completere antwoorden betekent meer vertrouwen in de data, wat een heel andere manier is om problemen aan te pakken.
Met big data kunt u een hele reeks zakelijke activiteiten optimaliseren, inclusief klantervaring en analyses. Hieronder staan enkele van die activiteiten.
1. Detailhandel en e-commerce. Bedrijven zoals Netflix en Procter & Gamble gebruiken big data om te anticiperen op de vraag van de klant. Ze bouwen voorspellende modellen voor nieuwe producten en diensten door de belangrijkste kenmerken van vroegere en huidige producten of diensten te rubriceren en de relatie tussen die kenmerken en het commerciële succes van het aanbod te modelleren. Daarnaast gebruikt P&G data en analyses van focusgroepen, sociale media, testmarkten en vroege uitrol van winkels om nieuwe producten te plannen, te produceren en te lanceren.
2. Gezondheidszorg. De gezondheidszorg kan diverse interne databronnen, zoals elektronische medische dossiers, draagbare apparaten voor patiënten en personeelsdata, en externe databronnen, waaronder verzekeringsdossiers en onderzoeken naar ziekten, combineren om de ervaringen van zowel zorgverleners als patiënten te optimaliseren. Intern kunnen personeelsplanningen, supply chains en faciliteitbeheer worden geoptimaliseerd met inzichten van operationele teams. Voor patiënten kan de directe en langdurige zorg veranderen met data die alles aansturen, zoals gepersonaliseerde aanbevelingen en voorspellende scans.
3. Financiële services. Als het om beveiliging gaat, zijn het niet zomaar een paar malafide aanvallers. U zult het moeten opnemen tegen groepen zeer geraffineerde hackers. Beveiligingslandschappen en compliancevereisten zijn voortdurend aan verandering onderhevig. Met big data kunt u patronen in data aangeven die wijzen op fraude, en grote hoeveelheden informatie samenvoegen om rapportage over regelgeving sneller te maken.
4. Productie. Factoren die mechanische storingen kunnen voorspellen, kunnen diep begraven liggen in gestructureerde data, zoals het jaar, merk en model van apparatuur, maar ook in ongestructureerde data die miljoenen logboekvermeldingen, sensordata, foutmeldingen en meetverslagen van engine-temperaturen omvatten. Door deze indicaties van potentiële problemen te analyseren voordat problemen zich openbaren, kunnen organisaties onderhoud kosteneffectiever inzetten en de uptime van onderdelen en apparatuur maximaal oprekken.
5. Overheids- en openbare diensten. Overheidsinstellingen kunnen data uit veel verschillende bronnen verzamelen, zoals RDW-data, verkeersdata, data afkomstig van politie of brandweer, schooldata en nog veel meer. Dit kan op veel verschillende manieren de efficiëntie vergroten, zoals het detecteren van trends onder bestuurders voor een geoptimaliseerd beheer van kruispunten en een betere toewijzing van middelen op scholen. Overheden kunnen data ook openbaar maken, waardoor de transparantie wordt verbeterd en het vertrouwen van de bevolking wordt versterkt.
Hoewel big data veelbelovend is, zijn er ook uitdagingen.
Ten eerste is big data ... groot. Hoewel er nieuwe technologieën zijn ontwikkeld om het opslaan van data mogelijk te maken, verdubbelen de datavolumes volgens analisten ongeveer elke twee jaar in omvang. Organisaties die moeite hebben om het tempo van hun data bij te houden en manieren te vinden om deze effectief op te slaan, zullen geen oplossing vinden in de vorm van volumevermindering.
En het is niet voldoende om je data alleen maar betaalbaar en toegankelijk op te slaan. Data moet op een waardevolle manier worden gebruikt en het succes daarvan hangt af van het beheer van die data. Samengestelde data, dat wil zeggen data die relevant zijn voor de klant en zijn georganiseerd op een manier die bruikbare analyse mogelijk maakt, komen niet uit de lucht vallen. Het beheer ervan is veel werk. In veel organisaties besteden datawetenschappers 50% tot 80% van hun tijd aan het beheren en voorbereiden van data zodat deze effectief kunnen worden gebruikt.
Wanneer al die data eenmaal zijn opgeslagen in de repository van een organisatie, zijn er nog twee belangrijke uitdagingen. Ten eerste zullen de behoeften op het gebied van databeveiliging en privacy van invloed zijn op de manier waarop IT-teams die data beheren. Dit omvat het naleven van regionale/industriële regelgeving, versleuteling en op rollen gebaseerde toegang voor gevoelige data. Ten tweede zijn data alleen nuttig als ze worden gebruikt. Het creëren van een datagestuurde cultuur kan best lastig zijn, vooral als een verouderd beleid en een mentaliteit die in de loop van de jaren is ingesleten, in de cultuur zijn verankerd. Nieuwe dynamische applicaties, zoals selfservice-analyses, kunnen voor bijna elke afdeling een doorbraak betekenen, maar IT-teams moeten de tijd en moeite steken in opleiding, gewenning en training. Dit is een langetermijninvestering die aanzienlijke organisatorische veranderingen teweegbrengt en uiteindelijk moet gaan zorgen voor betere inzichten en optimalisaties.
Voorts verandert de big data-technologie in hoog tempo. Enkele jaren geleden was Apache Hadoop de populaire technologie voor het verwerken van big data. Totdat Apache Spark in 2014 werd geïntroduceerd. Tegenwoordig zorgt een combinatie van technologieën voor nieuwe doorbraken op de markt voor big data. Bijblijven is een voortdurende uitdaging.
Big data biedt inzichten die nieuwe kansen en bedrijfsmodellen aan het licht brengen. Als de data eenmaal zijn opgenomen, zijn er drie belangrijke acties die moeten worden uitgevoerd:
Big data brengen data uit een groot aantal ongelijksoortige bronnen en applicaties samen. Traditionele mechanismen voor data-integratie, zoals extraheren, transformeren en laden (ETL, extract, transform, load), zijn over het algemeen hier niet geschikt voor. Er zijn nieuwe strategieën en technologieën nodig om big data-sets op terabytes of zelfs petabytes te analyseren.
Tijdens de integratie moet u de data binnenhalen, verwerken en ervoor zorgen dat ze zijn opgemaakt en beschikbaar zijn in een vorm waarmee uw bedrijfsanalisten aan de slag kunnen.
Voor big data is opslag nodig. Uw opslagoplossing kan zich in de cloud en/of lokaal bevinden. U kunt uw data in elke gewenste vorm opslaan en uw gewenste verwerkingsvereisten en benodigde verwerkingsengines op aanvraag naar die datasets overbrengen. Veel mensen kiezen hun opslagoplossing op basis van waar hun data zich op dat moment bevindt. Data lakes winnen gaandeweg aan populariteit omdat deze uw huidige compute-vereisten ondersteunt en u in staat stellen om zo nodig resources op te zetten.
Uw investering in big data betaalt zichzelf terug wanneer u uw data analyseert en ernaar handelt. Een visuele analyse van uw gevarieerde datasets biedt u nieuwe inzichten. Verken de data verder om nieuwe ontdekkingen te doen. Deel uw bevindingen met anderen. Bouw datamodellen met machine learning en kunstmatige intelligentie. Zet uw data aan het werk voor uw organisatie.
Om u bij uw big data-traject te ondersteunen, hebben wij enkele belangrijke best practices samengesteld die u in gedachten zou kunnen houden. Hieronder staan onze richtlijnen voor het creëren van een succesvolle basis voor uw big data.
Met uitgebreidere datasets kunt u nieuwe ontdekkingen doen. Daartoe is het belangrijk om nieuwe investeringen in kennis en vaardigheden, organisatie of infrastructuur te baseren op een sterke bedrijfsgestuurde context om lopende projectinvesteringen en financiering te garanderen. Om te kunnen bepalen of u op de goede weg bent, moet u zich afvragen op welke manier big data uw belangrijkste zakelijke prioriteiten en IT-prioriteiten ondersteunt en mogelijk maakt. Voorbeelden zijn onder meer inzicht in het filteren van weblogboeken om e-commerce-gedrag te begrijpen, het distilleren van sentimenten uit sociale media en interacties met klantenondersteuning, en inzicht in statistische correlatiemethoden en hun belang voor data van klanten, producten, fabricage en engineering.
Een van de grootste hindernissen om daadwerkelijk te profiteren van uw investering in big data, is dat u niet over voldoende personeel met de nodige vaardigheden beschikt voor het analyseren van uw data. U kunt dit risico verkleinen door ervoor te zorgen dat big data-technologieën, overwegingen en beslissingen worden toegevoegd aan uw IT-governanceprogramma. Door uw aanpak te standaardiseren, kunt u de kosten beheersen en middelen inzetten. Organisaties die big data-oplossingen en -strategieën implementeren, moeten hun vaardigheidseisen vroeg en regelmatig beoordelen en moeten proactief mogelijke tekortkomingen op het gebied van vaardigheden aangeven. Deze kunnen worden aangepakt door bestaande krachten te trainen/bij te scholen, nieuwe krachten in te huren en adviesbureaus in te zetten.
Gebruik een centre of excellence-aanpak om kennis te delen, toezicht te houden en projectcommunicatie te beheren. Of big data nu een nieuwe of groeiende investering is, de werkelijk en bijkomende kosten kunnen door de hele onderneming worden gedragen. Door gebruik te maken van deze aanpak, kunnen de mogelijkheden van big data en de algehele looptijd van de informatiearchitectuur op een meer gestructureerde en systematische manier worden vergroot.
Het is zeker waardevol om big data op zich te analyseren. U kunt echter zelfs nog meer zakelijke inzichten krijgen door big data met lage dichtheid te verbinden met en te integreren in de gestructureerde data die u momenteel al gebruikt.
Of u nu big data van klanten, producten, apparatuur of de omgeving vastlegt, het doel is om meer relevante datapunten aan uw core master en analytische samenvattingen toe te voegen, wat tot betere conclusies leidt. Er is bijvoorbeeld een verschil in het onderscheid maken tussen alle klantsentimenten en het klantsentiment van alleen uw beste klanten. Daarom zien velen big data als een integrale aanvulling op hun bestaande business intelligence-mogelijkheden, datawarehousing-platform en informatiearchitectuur.
Houd er rekening mee dat de analytische processen en modellen van big data zowel bij mensen als machines kunnen worden gebruikt. De analytische mogelijkheden van big data omvatten statistieken, ruimtelijke analyses, semantiek, interactieve ontdekkingen en visualisaties. Met behulp van analytische modellen kunt u verschillende soorten en bronnen van data met elkaar in verband brengen om associaties en zinvolle ontdekkingen te doen.
Het ontdekken van de zin van uw data is niet altijd eenvoudig. Soms weten we zelf niets eens waarnaar we op zoek zijn. Dat is te verwachten. Management en IT moeten ondersteuning bieden voor dit gebrek aan richting of het gebrek aan duidelijke vereisten.
Tegelijkertijd is het belangrijk dat analisten en datawetenschappers nauw met het bedrijf samenwerken om inzicht te krijgen in de belangrijkste hiaten in de bedrijfskennis en zakelijke vereisten. Om de interactieve verkenning van data en het experimenteren met statistische algoritmen mogelijk te maken, hebt u krachtige werkgebieden nodig. Zorg ervoor dat sandbox-omgevingen de ondersteuning krijgen die ze nodig hebben—en goed worden bestuurd.
Voor big data-processen en gebruikers van big data is toegang tot een heel scala aan bronnen voor zowel iteratieve experimenten als het uitvoeren van productietaken nodig. Een big data-oplossing omvat alle datagebieden, inclusief transacties, masterdata, referentiedata en samengevatte data. Analytische sandboxes moeten op aanvraag worden gemaakt. Resource Management is van cruciaal belang om de controle over de volledige datastroom te garanderen, inclusief voor- en nabewerking, integratie, samenvattingen in de database en analytische modellering. Een goed geplande levering van privéclouds en openbare clouds en beveiligingsstrategieën speelt een integrale rol bij het ondersteunen van deze veranderende vereisten.
Voor organisaties die efficiënt en uitgebreid beheer van big data nodig hebben, biedt het big data-platform van Oracle Cloud Infrastructure (OCI) een breed scala aan mogelijkheden met een uitzonderlijke prijs-prestatieverhouding. OCI is uitgerust met big data-tools die native zijn geïntegreerd en vormt mede daardoor een volledig beheerd, automatisch schaalbaar en flexibel big data-platform dat wordt geleverd met een pay-as-you-go-model waarin al uw data zijn ondergebracht.
Vanwege de omvang, snelheid en verscheidenheid van big data is het een uitdaging om zinvolle inzichten en bruikbare informatie af te leiden, maar bedrijven die investeren in de tools en expertise die nodig zijn om waardevolle informatie uit hun data te halen, kunnen een schat aan inzichten verzamelen waarmee besluitvormers hun strategie kunnen baseren op feiten in plaats van op veronderstellingen.
Zonder data geen AI. En hoe meer data, hoe beter. Download ons rapport om te leren hoe u snel resultaten kunt boeken die de invoering van AI stimuleren en uw AI-uitvoer kunt verrijken met behulp van retrieval-augmented generation (RAG) en vectorzoekopdrachten.
Wat betekent 'big data'?
Big data verwijst naar extreem grote en diverse datasets die niet eenvoudig kunnen worden beheerd met traditionele methoden en tools voor dataverwerking.
Kunt u een voorbeeld geven van big data?
Big data kent vijf belangrijke kenmerken. het heeft een grote omvang, vertoont een hoge snelheid bij het genereren van data, kent een verscheidenheid aan datatypen en benadrukt de waarheidsgetrouwheid en waarde van de data. Voorbeelden van bronnen zijn onder andere e-mails en tekstberichten, video's, databases, data van IoT-sensoren, berichten op sociale media en webpagina's.
De gezondheidszorg, detailhandel, financiële sector en marketing zijn enkele voorbeelden van branches die afhankelijk zijn van datagestuurde besluitvorming. In de gezondheidszorg kan met behulp van big data in grote datasets worden 'gegraven' om te voorspellen wanneer een patiënt baat kan hebben bij een vroegtijdige interventie voordat een ziekte zoals diabetes type 2 zich ontwikkelt. In de detailhandel kunnen big data helpen om voorraden te optimaliseren en aanbiedingen en aanbevelingen te personaliseren. In de financiële sector worden big data gebruikt om fraude op te sporen en trends beter te signaleren, terwijl marketeers een enorme hoeveelheid ongestructureerde data van sociale media kunnen volgen om sentiment te detecteren en reclamecampagnes te optimaliseren.