Qu’est ce que le Big Data ?

Le Big Data est un terme employé depuis les années 1990 pour désigner un ensemble de données non structurées, semi-structurées et structurées au volume important.

machine learning illustration

Webinar Oracle Technology Data Week

Commencer une nouvelle série Netflix, commander un Uber, parcourir une infographie… des activités anodines qui sont pourtant optimisées et personnalisées depuis l’avènement du Big Data. Si les données volumineuses sont au cœur de nos vies au quotidien et à l’échelle mondiale, connaissons-nous vraiment ce que le Big Data représente, quelles sont ses applications dans les différents métiers et surtout, comment peut-on en tirer parti ?

I. Volume, vitesse, variété…

Le Big Data est un terme employé depuis les années 1990 pour désigner un ensemble de données non structurées, semi-structurées et structurées au volume important. Ce critère est relatif et en constante évolution puisque, selon les prévisions d'un rapport d'IDC, le volume mondial de données qui était à 4,4 zettaoctets en 2013 devrait croître à 163 zettaoctets en 2025.

Le terme Big Data recouvre aussi l'écosystème et les pratiques qui découlent d’un tel volume de données :

  • les grandes technologies de données : les bases de données, le Cloud computing, etc.
  • leur visualisation à partir de tableaux, graphiques, etc.
  • leur analyse : prédictive ou de l’expérience client, le Machine Learning, le traitement du langage naturel, etc. Les informations sont alors exploitées en temps réel ou quasi réel.

L'accès et le stockage de grandes quantités d'informations à des fins d'analyse existent depuis longtemps. Mais le concept de Big Data a pris de l'ampleur au début des années 2000, lorsque l'analyste industriel Doug Laney a défini ses caractéristiques en trois "V" :

Volume

les données sont collectées à partir de diverses sources : réseaux sociaux, clics sur une page internet ou une application mobile, appareils intelligents IoT, etc. Elles sont ensuite stockées sur des plateformes comme les Data lakes ou Hadoop. En fonction des entreprises, cela peut correspondre à des dizaines de téraoctets de données, comme à des centaines de pétaoctets.

Vitesse

Les données sont générées et traitées à une vitesse qui peut être quasi réelle, ou même, réelle, dans le cas de produits intelligents liés à l’IoT. Par rapport aux données à faible volume, les données du Big Data sont produites de manière plus continue.

Variété

Si les données étaient traditionnellement structurées, le Big Data inclut également des données non structurées ou semi-structurées telles que le texte, l’audio et la vidéo qui nécessitent prétraitement supplémentaire pour en déduire le sens et prendre en charge les métadonnées.

Trois autres « V » ont complété les spécificités du Big Data ces dernières années :

Variabilité

Le flux de données est imprévisible puisqu’il change en fonction du contexte dans lequel elles sont générées. Les entreprises doivent s’adapter par la prédiction de tendances.

Véracité

La qualité des données est variable, étant donné qu’elles dépendent de nombreuses sources différentes. Les entreprises doivent déterminer si elles sont fiables en les corrélant afin d’obtenir une analyse fine.

Valeur

Les données deviennent utiles quand des experts les analysent en suivant une procédure complète où interagissent des analystes perspicaces, des utilisateurs professionnels et des dirigeants éclairés qui parviennent à prévoir des tendances, poser des hypothèses pertinentes et prédire les comportements.

Testez et développez des applications gratuitement avec le Cloud Oracle

II. Le Big Data : au coeur de tous les métiers à une échelle mondiale

Les pays développés adoptent de plus en plus les technologies du Big Data. Sur les 7,7 milliards d'humains sur terre en 2019, 5,1 milliards possèdent un téléphone mobile et 4,4 milliards utilisent Internet, soit 57 % d'entre eux. En un an, le nombre d'utilisateurs du web s'est accru de 9,1 %, tandis que la population mondiale n'a progressé que de 1,1 %.

Si les populations y trouvent leur intérêt, les gouvernements des différents pays exploitent le Big Data pour des applications très variées. En Chine, la plate-forme d'opérations conjointes intégrées (IJOP) surveille la population, à partir de données biométriques recueillies dans le cadre d'un programme de tests physiques gratuits. En Israël, une grande application de données a été conçue par Agro Web Lab pour aider à la régulation de l'irrigation. Au Royaume-Uni, une fine corrélation des données à permis de livrer des repas à domicile sans retard pour cause météorologique. L’administration Obama, quant à elle, a mis en place en 2012 84 programmes de données dans 6 départements afin d’explorer comment résoudre les problèmes importants rencontrés par le gouvernement. De fait, très nombreux sont les corps de métiers à exploiter le Big Data, en voici quelques-uns.

Le Big Data et la santé : améliorer les soins et la recherche

Le domaine de la santé manipule beaucoup de données, comprenant notamment de nombreuses informations sur les dossiers médicaux. Une gestion optimale du Big Data améliore le suivi des patients : un diagnostic peut être posé de manière personnalisée selon l’historicité des informations médicales, avec rapidité et précision. Le diagnostic assisté par ordinateur permet une nette amélioration des soins et engendre aussi beaucoup de données : 5 à 10 Go par jour pour le suivi d’une épilepsie, ou encore 450 Mo pour une seule image non compressée de la tomosynthèse mammaire. Quant à la recherche biomédicale, l’analyse des données du Big Data lui permet de progresser plus rapidement et l’exploitation du Machine Learning transforme les méthodes de recherche alors fondées sur les hypothèses.

Le Big Data et les médias : nouvel environnement, nouvelles pratiques

Le Big Data a révolutionné les pratiques de l’industrie des médias qui emploie désormais massivement les technologies du web. Cibler des personnes à un moment et dans un espace optimal est désormais possible, l’idée étant de délivrer un message conforme à l’attente de l’internaute. C’est le cas par exemple des milieux de l’édition qui récoltent les données des consommateurs afin d’adapter leurs publicités et contenus en ligne. Les flux de données permettent aussi aux journalistes et éditeurs de fournir des contenus variés et riches, tels que des infographies.

Le Big Data et l’IT : le Machine Learning au service de l’ITOA

Les entreprises tirent parti du Big Data grâce à l’Analyse des Opérations IT (ITOA) qui exploite le Machine Learning afin d’éviter, ou de résoudre, les problèmes IT et ainsi, améliorer les opérations commerciales.

En termes de données, les géants du web exploitent un volume de data impressionnant tels que Facebook qui gère 50 milliards de photos à partir de sa base d'utilisateurs. En juin 2017, le réseau social avait atteint 2 milliards d'utilisateurs actifs par mois.

Le Big Data et les sciences : des avancées spectaculaires

La science a su tirer parti Big Data dont l’exploitation judicieuse engendre un progrès exceptionnel sur la découverte du monde et de la vie humaine. Voici quelques exemples :

  • Un projet de radiotélescope géant, le Square Kilometre Array (SKA) est conçu par un consortium scientifique international. Déployé en deux phases, la première installerait 200 télescopes paraboliques en Afrique du Sud et 130 000 antennes phasées fixes pour 2024. Cette première étape qui représenterait 10% du réseau final permettrait d’étudier des questions essentielles sur l’astrophysique et la physique : cosmologie, milieu interstellaire, ondes gravitationnelles, etc.

  • Lorsque le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a accumulé plus dans ses premières semaines que toutes les données collectées dans l'histoire de l'astronomie auparavant.
  • A l’origine, le décodage du génome humain a demandé 10 ans ; il peut maintenant être réalisé en moins d'une semaine. Les séquenceurs d'ADN ont divisé le coût du séquençage par 10 000 au cours des dix dernières années.

  • La dynamique des fluides numérique et la recherche sur la turbulence hydrodynamique génèrent des ensembles de données considérables. Les bases de données de turbulence de Johns Hopkins contiennent plus de 350 téraoctets de champs spatiotemporels provenant de simulations numériques directes provenant de divers écoulements turbulents.

III. Comment tirer parti du Big Data ?

Elaborer une stratégie Big Data

Pour tirer parti du Big Data, les entreprises doivent préalablement comprendre son fonctionnement : comment les données circulent ? Depuis et vers quels environnements ? A partir de quelles sources ? Qui en sont les propriétaires, et les utilisateurs ?


  • Superviser et améliorer la manière dont vous acquérez, stockez, gérez, partagez et utilisez les données au sein et à l'extérieur de votre organisation.
  • Déterminer les sources des données importantes pour l’entreprise. Soit elles proviennent des réseaux sociaux sous divers formats, soit de l’IoT et autres appareils connectés, soit encore du domaine public ou enfin, de data lakes, Cloud data source, fournisseurs ou clients.
  • Accéder, gérer et stocker des données volumineuses. Si les SI permettent d’accéder rapidement aux données, les entreprises ont également besoin de méthodes pour intégrer les données, garantir leur qualité, assurer la gouvernance et le stockage des données et préparer les données pour l'analyse. Certaines données peuvent être stockées on-premise dans un datawarehouse, mais il existe également des options flexibles et peu coûteuses pour le stockage et la manipulation de données volumineuses via des solutions de Cloud computing, des datalakes et Hadoop. Le Cloud est de plus en plus adopté car il laisse, entre autres, la possibilité d’augmenter les ressources en fonction des besoins.
  • Analyser toutes les données ou une partie des données en déterminant au préalable celles qui ont de la valeur pour l’entreprise. Les données peuvent être ainsi représentées sous forme d’analyse visuelle, offrant la possibilité de les explorer pour mieux les comprendre et en tirer parti davantage encore; mais aussi de les partager pour échanger des interprétations. Grâce au Machine Learning, des modèles de données peuvent également être créées.
  • Prendre des décisions intelligentes, fondées sur les données. Une bonne gestion des données et une analyse intelligente de celles-ci engendrera des décisions pertinentes, innovantes et compétitives sur le marché.

Exemples de cas d’utilisation

Adopter les bonnes pratiques pour exploiter le Big Data permet d’obtenir des analyses précises qui améliorent l’expérience client et ainsi, la productivité de l’entreprise.

  • Anticiper la demande du client en créant des modèles prédictifs basés sur les préférences des utilisateurs, et données connexes. Netflix, par exemple, développe ainsi des produits sur mesure pour satisfaire le consommateur.
  • Prévoir les défaillances techniques grâce à la maintenance prédictive. En alimentant le Machine Learning de données concernant par exemple le modèle et l’année d’un équipement, ainsi que de logs indiquant des messages d’erreurs, les algorithmes peuvent créer un modèle prédictif qui alerte en cas de problèmes potentiels, alors évités.
  • Améliorer l’expérience client en rassemblant les données des réseaux sociaux, des pages webs et autres sources. A partir de ces informations, analysez précisément le comportement de l’utilisateur pour résoudre les problèmes qu’il pourrait rencontrer et lui proposer des offres personnalisées.