Qu'est-ce que le Data Mining ?

2 mai 2022

Définition du data mining

Qu'est-ce que le Data Mining ? En termes simples, il s'agit du processus de découverte d'informations lors de la gestion de grands volumes de données. Ces données peuvent provenir de nombreuses sources ou d'une seule base de données, et les informations peuvent être générées par le repérage manuel ou l'automatisation. De nombreux façons différentes existent pour produire des informations, souvent en fonction de variables telles que les ressources, les capacités de machine learning/intelligence artificielle, la complexité des données, le volume de données, ainsi que la formation et l'expérience du personnel. Ce processus implique une analyse approfondie des données pour découvrir des modèles et des facteurs sous-jacents, le tout pour créer des conclusions et produire des décisions éclairées.

Le data mining dans le big data

L'utilisation de l'exploration de données a considérablement augmenté au cours des vingt dernières années en raison de la multiplication des sources de données dans un environnement de « big data ». Le big data fait référence à des volumes massifs de données, souvent sous forme de flux continus provenant de plusieurs sources et à une vitesse élevée. Au début de l'informatique décisionnelle, les tableaux de données étaient souvent exportés à partir d'appareils et préparés manuellement pour obtenir des informations. Mais à mesure que le monde est de plus en plus connecté, les données peuvent arriver en volumes trop massifs pour être disséminées manuellement, en particulier lorsqu'il s'agit d'un mélange de données structurées et non structurées.

L'exploration de données est un processus qui rend le big data fonctionnel. Sans l'exploration de données, les entreprises finiraient par passer à côté de téraoctets de données provenant d'un large éventail de sources : appareils Internet of Things (IoT), bases de données, médias sociaux d'entreprise, e-mails marketing, capteurs, utilisation de sites Web, et bien plus encore, chacun avec son propre ensemble de métadonnées. Combiner de vastes volumes de données est physiquement impossible. Les techniques d'exploration de données utilisent des algorithmes pour identifier des modèles à travers cet ensemble massif d'enregistrements, puis génèrent un ensemble de recommandations sur lesquelles les équipes doivent agir.

Un exemple simple provient des achats en ligne pour les détaillants. Dans ces situations, les historiques des clients sont tous compilés dans une base de données massive. Un algorithme parcourt ces données pour rechercher des corrélations, par exemple, les personnes qui n'achètent qu'une certaine marque d'aliments pour chiens. Cet algorithme recherche des informations sur les achats connexes, tels que les suppléments ou les marques de friandises. Au fur et à mesure que les tendances émergent, ces informations peuvent être transmises à l'équipe marketing pour créer des promotions qui déclenchent des relations avec cette marque spécifique.

Fonctionnement du data mining

La section ci-dessus explique l'exploration de données sur une grande image, mais explorons le processus réel d'exploration de données. Le traitement automatisé et l'analyse humaine sont utilisés pour tirer le meilleur parti de l'exploration de données, le personnel établissant les directives tandis que le machine learning et l'intelligence artificielle passent au crible de grands volumes de données. En général, le workflow suivant est utilisé :

  1. Objectifs : Quel est l'objectif de votre exploration de données ? Établir cela entre toutes les parties prenantes est la partie la plus importante du processus. Si l'objectif n'est pas clairement et soigneusement établi, l'ensemble de l'effort peut devoir être abandonné et recommencé.
  2. Préparation des données : La préparation des données peut impliquer un large éventail de processus, y compris l'abattage des sources de données, l'établissement de formats et le nettoyage des ensembles de données d'anomalies et de bruit.
  3. Construire le modèle : les data scientists vont ensuite construire le modèle et le développer et l'entraîner à travers l'itération. Dans de nombreux cas, plusieurs modèles seront construits et testés pour trouver le chemin le plus approprié vers l'objectif. Ce processus d'évaluation nécessite une approche large pour la validation, avec des techniques telles que la validation croisée et l'analyse de la courbe des caractéristiques de fonctionnement du récepteur (ROC).

Une fois le modèle d'exploration de données créé, il est temps de le déployer dans les ensembles de données. Une surveillance active est nécessaire pour s'assurer qu'il n'y a pas de surprises ou de raisons d'ajuster et d'affiner le modèle. Si tout fonctionne comme prévu, les données résultantes doivent définir des normes claires en matière de validité et d'utilité et, par conséquent, être prêtes à être examinées par les utilisateurs professionnels pour prendre des décisions basées sur les données.

Cas d'utilisation d'un data mining

En plus de l'exemple de vente au détail ci-dessus, l'exploration de données peut être un processus de transformation pour un certain nombre d'industries. Les exemples ci-dessous montrent comment l'exploration de données peut être appliquée à des besoins spécifiques à l'industrie.

Le data mining pour les soins de santé

L'exploration de données peut transformer le secteur des soins de santé en améliorant et en accélérant les expériences pour les fournisseurs et les patients. Les fournisseurs peuvent utiliser l'exploration de données pour accélérer et engager la recherche, comprendre les données opérationnelles afin de répondre au mieux aux besoins en personnel et identifier les indicateurs clés pour l'assurance et la fraude. Pour les patients, l'exploration des données identifie les modèles qui favorisent les options de soins préventifs, en veillant à ce que les conversations puissent commencer avant que les traitements ne soient nécessaires. Elle peut également identifier les schémas cachés dans des modèles, tels que les effets secondaires, ouvrant la porte à une meilleure idée de la façon dont les traitements pourraient être influencés par la condition spécifique et unique d'un patient.


Le data mining pour la production

Pour le secteur de la fabrication, des données sont générées tout au long du processus : achat de matériaux, logistique d'assemblage, contrôle qualité, dates d'expédition et retours en raison de défauts de fabrication. L'exploration de données peut examiner à la fois les étapes individuelles du processus et une vue d'ensemble. Cela permet aux équipes de résoudre les problèmes en mode micro et macro.

Par exemple, l'exploration de données peut identifier qu'un fournisseur particulier a des délais d'expédition plus longs mais présente moins de défauts globaux, de sorte que les gestionnaires peuvent décider que le risque en vaut la peine car des étapes peuvent être exécutées en parallèle pour atténuer l'impact des retards. D'autre part, elle peut également montrer qu'un fournisseur fournit de manière cohérente, mais que son taux de défauts plus élevé a un impact plus important sur le processus. L'exploration de données peut créer ces connexions afin que les décisions optimisent l'ensemble du processus de fabrication plutôt que d'être prises dans le vide.


Le data mining pour les services financiers

L'exploration de données offre de nombreux avantages aux fournisseurs de services financiers, tant pour les opérations internes que pour l'expérience client. Sur le front des opérations, l'exploration de données peut avoir un impact sur tous les services, des ressources humaines au marketing. En particulier pour ce secteur, cependant, l'exploration de données peut minimiser les risques informatiques, car la disponibilité et la sécurité sont la priorité absolue pour tout ce qui a trait à la finance.

Du côté du client, l'exploration de données offre à la fois des éléments de protection et une meilleure expérience client. L'exploration de données dans les modèles de transaction peut identifier et marquer les éléments qui semblent inhabituels par zone géographique, heure de la journée, catégorie d'achat ou tous ces éléments combinés. Les résultats peuvent ensuite être transmis aux équipes de fraude pour voir s'ils nécessitent un suivi. Pour l'utilisateur final, les modèles d'exploration de données peuvent créer des déclencheurs marketing pour les promotions spécialisées, telles que le refinancement ou les prêts HELOC.

Le data mining pour l'entreprise

Chaque organisation d'une entreprise, des opérations internes au service client, peut bénéficier de l'exploration de données. Une exploration de données réussie commence par une infrastructure solide pour tirer parti de plusieurs sources de données à grande vitesse. Essayez Oracle Cloud Infrastructure gratuitement pour découvrir comment il constitue la base de l'exploration de données.