Qu'est-ce que la science des données?

La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes spécialistes pour extraire la valeur des données. Les spécialistes des données combinent un éventail de compétences (statistiques, science informatique, connaissance des affaires) pour analyser des données provenant du Web, de téléphones intelligents, de clients, de capteurs ou d’autres sources.

La science des données dégage les tendances et produit des renseignements que les entreprises peuvent utiliser pour prendre des décisions plus éclairées et créer des produits et des services plus novateurs. Les données sont le fondement de l'innovation, mais leur valeur provient des renseignements que les spécialistes des données peuvent en tirer, puis y donner suite.

 

Outils pour les spécialistes des données

Les spécialistes des données utilisent de nombreux types d'outils, mais que l'un des plus communs est le calepin électronique en accès libre, qui consiste en une application Web pour l’écriture et l’exécution d’un code, la visualisation de données et la consultation des résultats, le tout dans un même environnement. Certains des plus populaires calepins électroniques sont Jupyter, RStudio et Zepplin. Les calepins électroniques sont très pratiques pour effectuer des analyses, mais ont des limites lorsque les spécialistes des données doivent travailler en équipe. Les plateformes de science des données ont vu le jour pour résoudre ce problème.

La science des données et la croissance des données

La science des données et la croissance des données

À mesure que la technologie moderne a permis la création et le stockage de quantités croissantes d'informations, le volume de données a fortement augmenté. On estime que 90 % des données dans le monde ont été créées au cours des deux dernières années. Par exemple, les utilisateurs Facebook téléversent 10 millions de photos par heure. Le nombre d’appareils connectés dans le monde — l'Internet des objets (IdO) — devrait atteindre plus de 75 milliards d’ici 2025.

La richesse des données collectées et stockées par ces technologies peut amener des avantages transformateurs aux organismes et aux sociétés dans le monde, mais seulement si nous pouvons les interpréter. C'est ici qu’entre en jeu la science des données.

Explorez ce document infographique pour obtenir plus de détails sur les données et la science des données.

L'émergence des spécialistes des données

L'émergence des spécialistes des données

En tant que spécialisation, la science des données est jeune. Elle découle des domaines de l’analyse statistique et l’exploration des données. Le Data Science Journal, publié par le Comité pour les données scientifiques et technologiques du Conseil international pour la science, a vu le jour en 2002. En 2008, le titre de spécialiste des données est apparu et le domaine a rapidement pris son envol. Depuis ce temps-là, on constate une pénurie de spécialistes des données, même si de plus en plus de collèges et d’universités ont commencé à offrir des diplômes en science des données.

Les fonctions d’un spécialiste des données peuvent comprendre, notamment, l’élaboration de stratégies pour analyser les données; l’exploration, l’analyse et la visualisation de données; la conception de modèles à l’aide de langages de programmation comme Python et R; et le déploiement de modèles dans des applications.

Le spécialiste des données ne travaille pas seul. En fait, la science des données la plus efficace est effectuée en équipe. En plus du spécialiste des données, cette équipe peut être composée d’un analyste d’entreprise qui définit le problème; d’un ingénieur en données qui prépare les données et la façon d’y accéder; d’un architecte en TI qui supervise l’infrastructure et les processus sous-jacents; et d’un développeur d’applications qui déploie les modèles ou les données de sorties dans des applications et des produits à des fins d’analyse.

Comment la science des données transforme les activités

Les entreprises utilisent des équipes de science de données pour transformer les données en un avantage concurrentiel en raffinant les produits et les services. Par exemple, elles analysent les données collectées de centres d’appels pour repérer les clients qu'elles risquent de perdre, pour que l’équipe du marketing puisse prendre des mesures pour les fidéliser. Les entreprises de logistique analysent les mouvements de circulation, les conditions météorologiques et d’autres facteurs pour améliorer les vitesses de livraison et réduire les coûts. Les entreprises de soins de santé analysent les données de tests médicaux et les symptômes rapportés pour aider les médecins à diagnostiquer des maladies plus tôt et à les traiter plus efficacement.

La plupart des sociétés ont fait de la science des données une priorité et y investissent beaucoup d’argent. Dans un récent sondage de Gartner auprès de plus de 3 000 directeurs informatiques, les répondants ont classé l’analyse et la veille stratégique au sommet de la différenciation technologique pour leur entreprise. Ils considèrent que ces technologies sont les plus stratégiques pour leur société. C’est pour cette raison qu’elles attirent la plupart des nouveaux investissements.

Comment fonctionne la science des données

Comment fonctionne la science des données

Le processus d'analyse des données et de prise de décision se veut itératif plutôt que linéaire, mais c’est ainsi que le travail se fait généralement dans le cadre d’un projet de modélisation des données :

  • Planification : définir un projet et ses données de sortie potentielles;
  • Préparation : concevoir l'environnement de travail, en s’assurant que les spécialistes des données sont munis des outils appropriés et peuvent accéder aux bonnes données et à d’autres ressources telles que la capacité de traitement;
  • Ingestion : charger les données dans l'environnement de travail;
  • Exploration : analyser, explorer et visualiser les données;
  • Modélisation : concevoir, entraîner et valider les modèles pour qu'ils fonctionnent comme requis;
  • Déploiement : déployer de modèles en production.

Qui surveille le processus de science des données?

Qui surveille le processus de science des données?

Le processus de science des données est généralement supervisé par trois types de gestionnaires :

  • Gestionnaires d'entreprise : Ces gestionnaires travaillent avec les équipes de science des données pour définir le problème et élaborer une stratégie à des fins d’analyse. Ils peuvent agir à titre de chef d’un secteur d’activités comme le marketing, les finances ou les ventes et être responsables de l’équipe de science des données. Ils travaillent en étroite collaboration avec les gestionnaires de science des données et des TI pour garantir que les projets sont livrés.
  • Gestionnaires des TI : Les gestionnaires supérieurs des TI sont chargés de la planification de l’infrastructure et de l’architecture qui soutiendront les opérations de science des données. Ils surveillent constamment les opérations et l’utilisation des ressources pour s’assurer que les équipes de science des données travaillent de façon efficace et sécuritaire. Ils peuvent également être responsables de la création et de la mise à jour des environnements pour les équipes de science de données.
  • Gestionnaires de science des données : Ces gestionnaires supervisent l’équipe de science des données et leur travail quotidien. Ils sont des bâtisseurs d’équipe qui peuvent trouver l’équilibre entre le perfectionnement de l’équipe et la planification et la surveillance de projets.

Défis liés à la mise en œuvre de la science des données

Malgré la promesse de la science des données et d'énormes investissements dans des équipes de science de données, de nombreuses entreprises ne tirent pas pleinement parti de leurs données. Dans leur course à l’embauche de talents et à la création de programmes de science des données, certaines sociétés ont connu des flux de travail d’équipe inefficaces, avec différentes personnes utilisant différents outils et processus qui ne fonctionnent pas bien ensemble. Sans une gestion centralisée plus disciplinée, les cadres supérieurs pourraient ne pas obtenir un rendement complet du capital investi. Cet environnement chaotique présente de nombreux défis.

Les spécialistes des données ne peuvent travailler efficacement. Étant donné que l'accès aux données doit être accordé par un administrateur des TI, les spécialistes des données doivent souvent attendre longtemps pour pouvoir accéder aux données et aux ressources dont ils ont besoin pour les analyser. Une fois que l’équipe de science des données y a accès, elle pourrait les analyser en utilisant des outils différents et possiblement incompatibles. Par exemple, un spécialiste pourrait concevoir un modèle à l'aide du langage R, mais l’application dans laquelle il sera utilisé est écrite dans un autre langage. C'est pourquoi le déploiement de modèles dans des applications utiles peut prendre des semaines, voire des mois.

Les développeurs d’applications ne parviennent pas à accéder à l’apprentissage automatique. Il arrive parfois que les modèles d’apprentissage automatique que les développeurs reçoivent doivent être enregistrés ou ne soient pas prêts à être déployés dans des applications. Et parce que les points d’accès peuvent être rigides, les modèles ne peuvent pas être déployés dans tous les scénarios et l'extensibilité est laissée au développeur d’applications.

Les administrateurs des TI passent trop de temps à fournir de l'assistance. En raison de la prolifération des outils en accès libre, les TI ont une liste toujours croissante d’outils que les administrateurs doivent soutenir. Par exemple, un spécialiste des données du service du marketing peut utiliser des outils différents de celui du service des finances. Les équipes peuvent également avoir différents flux de travail, ce qui signifie que les TI doivent continuellement recréer et mettre à jour des environnements.

Les gestionnaires d’entreprise sont trop éloignés de la science des données. Les flux de travail liés à la science des données ne sont pas toujours intégrés aux processus et aux systèmes de prise de décision d’entreprise, ce qui fait qu’il est difficile pour les gestionnaires de collaborer de façon éclairée avec les spécialistes des données. Sans une meilleure intégration, les gestionnaires d’entreprise ont de la difficulté à comprendre pourquoi il faut tant de temps pour passer du prototype à la production, et ils sont moins susceptibles de soutenir l’investissement dans des projets qu’ils considèrent comme étant trop lents.

La plateforme de science des données fait son apparition

La plateforme de science des données fait son apparition

Les entreprises ont compris que sans une plateforme intégrée, les travaux de science des données étaient insuffisants, non sécurisés et difficiles à mettre à l'échelle. Cette prise de conscience a entraîné l'apparition de plateformes de science des données. Ces plateformes sont des plaques tournantes de logiciels autour desquelles les travaux de science des données se déroulent. Une bonne plateforme atténue de nombreux défis liés à la mise en œuvre de la science des données et aide les entreprises à transformer leurs données en renseignements plus rapidement et plus efficacement.

Une plateforme centralisée permet aux spécialistes des données de travailler dans un environnement collaboratif en utilisant leurs outils en accès libre préférés, avec tous leurs travaux synchronisés par un système de contrôle de version.

Obtenez des résultats opérationnels grâce à une plateforme de science des données qui soutient l’autonomie.

Les avantages d'une plateforme de science des données

Les avantages d'une plateforme de science des données

Une plateforme de science des données réduit la redondance et stimule l’innovation en permettant aux équipes de partager des codes, des résultats et des rapports. Elle élimine les obstacles au flux de travail en simplifiant la gestion et en utilisant des outils, des cadres d’applications et une infrastructure en accès libre.

Par exemple, une plateforme de science des données peut permettre aux spécialistes des données de déployer des modèles en tant qu’API, ce qui facilite leur intégration aux différentes applications. Les spécialistes des données peuvent accéder aux outils, aux données et à l'infrastructure sans avoir à attendre les TI.

La demande pour des plateformes de science des données a explosé sur le marché. En fait, le marché des plateformes devrait poursuivre son expansion à un taux annuel composé de plus de 39 % au cours des prochaines années et devrait atteindre 385 milliards de dollars américains d'ici 2025.

Si vous êtes prêt à explorer les capacités des plateformes de science des données, vous devez tenir compte de certaines fonctionnalités clés :

  • Choisir une interface utilisateur axée sur des projets qui encourage la collaboration. . La plateforme doit permettre aux gens de travailler ensemble sur un modèle, de la conception au développement final. Elle doit donner à chaque membre de l’équipe un accès libre-service aux données et aux ressources.
  • Donner un degré de priorité élevé à l’intégration et à la flexibilité. Assurez-vous que la plateforme permet la prise en charge des plus récents outils en accès libre (des fournisseurs de contrôle de version communs comme GitHub, GitLab et Bitbucket) et une étroite intégration avec d'autres ressources.
  • Inclure des capacités de classe professionnelle. Assurez-vous que la plateforme peut évoluer avec votre entreprise à mesure que votre équipe s’agrandit. La plateforme devrait être à grande disponible, être dotée de solides contrôles d’accès et prendre en charge un grand nombre d'utilisateurs simultanés.
  • S’assurer que la science des données offre davantage de fonctions libre-service. Recherchez une plateforme qui allège le fardeau des services des TI et de l’ingénierie et qui fait en sorte qu’il soit facile pour les spécialistes des données de mettre en place des environnements de façon instantanée, de suivre tous leurs travaux et de déployer facilement des modèles en production.

Les entreprises peinent à trouver des talents dans le domaine de la science des données

Trouver et recruter des talents est le plus grand obstacle auquel les entreprises font face lorsqu’ils veulent utiliser la science des données pour obtenir un avantage concurrentiel. Dans une récente enquête de McKinsey & Company, la moitié des cadres supérieurs de différentes régions et industries ont indiqué éprouver plus de difficultés à recruter des talents avec une capacité analytique que tout autre de compétence. Selon 40 % des personnes interrogées, la rétention est également un problème.

En plus des spécialistes des données, McKinsey indique qu'il existe des pénuries dans d'autres catégories d’analyse. En particulier, il existe des pénuries de main-d'œuvre qualifiée qui peut établir une correspondance entre les problèmes d’affaires et l’application appropriée de la science des données, et de travailleurs qui possèdent des compétences en visualisation de données.

Indeed.com, Glassdoor et Bloomberg apportent des preuves supplémentaires qu’il existe une importante demande pour les spécialistes des données :

  • Les offres d’emploi pour des spécialistes des données sur Indeed.com ont augmenté de 75 % entre janvier 2015 et janvier 2018. D’après Bloomberg, les recherches d’emploi pour des postes de spécialiste des données ont augmenté de 65 %.
  • Glassdoor estime qu’en 2018, la demande pour des spécialistes des données a excédé l’offre de 50 %.
  • Glassdoor a classé les spécialistes des données comme le meilleur emploi en Amérique pour la troisième année consécutive.

Bibliothèque d’apprentissage de l'intelligence artificielle

Qu'est-ce que l'intelligence artificielle?
En savoir plus sur l’intelligence artificielle

L'intelligence artificielle (IA) permet à la technologie et aux machines de traiter des données pour apprendre, évoluer et exécuter des tâches humaines.

En savoir plus sur l'apprentissage automatique
En savoir plus sur l'apprentissage automatique

L'apprentissage automatique, un sous-domaine de l’intelligence artificielle (IA), se concentre sur la conception de systèmes qui apprennent au moyen de données dans le but d’automatiser et d'accélérer le délai relatif à la prise de décision et de rendre plus rapide le délai lié à l’obtention d’un rendement.

Nouvelles et opinions
Nouvelles et opinions

L’apprentissage automatique, l’intelligence artificielle et la science des données transforment la façon dont les entreprises traitent les problèmes complexes pour modifier la trajectoire de leurs secteurs respectifs. Lisez les plus récents articles pour comprendre la façon dont le secteur et vos pairs tiennent compte de ces technologies.