Data Mining : Qu’est-ce que c’est ?

Le Data Mining est défini comme un processus utilisé pour extraire des données utilisables d'un ensemble plus large de données brutes. Les entreprises peuvent en apprendre davantage sur leurs clients et élaborer des stratégies plus efficaces liées aux diverses fonctions de l'entreprise, ce qui leur permet de tirer parti des ressources de façon plus optimale et plus judicieuse. Cela aide les entreprises à se rapprocher de leurs objectifs et à prendre de meilleures décisions. Le Data Mining implique la collecte et l'entreposage efficaces des données ainsi que le traitement informatique. Pour segmenter les données et évaluer la probabilité d'événements futurs, le Data Mining utilise des algorithmes mathématiques sophistiqués.

Tout ce que vous devez savoir sur le Data Mining

Temps de lecture : 5 mn

Le Data mining est la pratique consistant à rechercher automatiquement de grandes quantités de données afin de découvrir des tendances et des modèles qui vont au-delà de la simple analyse. Data Mining utilise des algorithmes mathématiques sophistiqués pour segmenter les données et évaluer la probabilité d'événements futurs. Data Mining est également connue sous le nom de découverte de connaissances dans les données.

Les propriétés clés de Data Mining sont :

  • Découverte automatique des motifs
  • Prévision des résultats probables
  • Mettre l'accent sur les grands ensembles de données et les grandes bases de données

Data Mining peut répondre à des questions qui ne peuvent être résolues par de simples techniques d'interrogation et de rapport.

Data Mining et OLAP

Le traitement analytique en ligne (OLAP) peut être défini comme une analyse rapide de données multidimensionnelles partagées. L’OLAP et le Data Mining sont des activités différentes mais complémentaires.

Les opérations OLAP prennent en charge des activités telles que la compression des données, l'affectation des coûts, l'analyse des séries chronologiques et l'analyse par simulation. Cependant, la plupart des systèmes OLAP n'ont pas de capacités d'inférence inductive au-delà de la prise en charge des prévisions de séries chronologiques. L'inférence inductive, c'est-à-dire le processus consistant à tirer une conclusion générale à partir d'exemples précis, est une caractéristique du Data Mining. L'inférence inductive est également connue sous le nom d'apprentissage computationnel.

Les systèmes OLAP fournissent une vue multidimensionnelle des données, y compris un support complet des hiérarchies. Cette vue des données est un moyen naturel d'analyser les entreprises et les organisations. Le Data Mining, par contre, n'a généralement pas de concept de dimensions et de hiérarchies.

Le Data Mining et l'OLAP peuvent être intégrés de plusieurs façons. Par exemple, Le Data Mining peut être utilisée pour sélectionner les dimensions d'un cube, créer de nouvelles valeurs pour une dimension ou créer de nouvelles mesures pour un cube. L’OLAP peut être utilisé pour analyser les résultats du data mining à différents niveaux de granularité.

Le Data Mining peut vous aider à construire des cubes plus intéressants et plus utiles. Par exemple, les résultats du Data Mining prédictive pourraient être ajoutés à un cube en tant que mesures personnalisées. De telles mesures pourraient fournir des informations telles que "susceptibles de faire défaut" ou "susceptibles d'acheter" pour chaque client. Le traitement OLAP pourrait alors agréger et résumer les probabilités.

Que peut faire et ne pas faire le Data Mining ?

Data Mining est un outil puissant qui peut vous aider à trouver des modèles et des relations dans vos données. Mais Data Mining ne fonctionne pas d'elle-même. Cela n'élimine pas le besoin de connaître votre entreprise, de comprendre vos données ou de comprendre les méthodes d'analyse. Data Mining permet de découvrir des informations cachées dans vos données, mais elle ne peut pas vous dire la valeur de ces informations pour votre organisation.

Il se peut que vous soyez déjà au courant de tendances importantes découlant de l'utilisation de vos données au fil du temps. Le Data Mining peut confirmer ou nuancer de telles observations empiriques en plus de trouver de nouvelles tendances qui ne sont peut-être pas immédiatement perceptibles par une simple observation.

Il est important de se rappeler que les relations prédictives découvertes par le data mining ne sont pas nécessairement les causes d'une action ou d'un comportement. Par exemple, Data Mining pourrait déterminer que les hommes ayant un revenu entre 50 000 $ et 65 000 $ qui sont abonnés à certains magazines sont susceptibles d'acheter un produit donné. Vous pouvez utiliser ces renseignements pour vous aider à élaborer une stratégie de marketing. Cependant, vous ne devez pas supposer que la population identifiée par Data Mining achètera le produit parce qu'elle appartient à cette population.

Poser les bonnes questions

Le Data Mining ne découvre pas automatiquement des solutions sans guide. Les modèles que vous découvrirez grâce au Data Mining seront très différents selon la façon dont vous formulerez le problème.

Pour obtenir des résultats significatifs, vous devez apprendre à poser les bonnes questions. Par exemple, plutôt que d'essayer d'apprendre comment " améliorer la réponse à une sollicitation par publipostage ", vous pourriez essayer de trouver les caractéristiques des personnes qui ont répondu à vos sollicitations dans le passé.

Comprendre vos données

Pour garantir des résultats d'exploration de données significatifs, vous devez comprendre vos données. Les algorithmes d'exploration de données sont souvent sensibles à des caractéristiques spécifiques des données : valeurs aberrantes (valeurs de données très différentes des valeurs typiques de votre base de données), colonnes non pertinentes, colonnes qui varient ensemble (comme l'âge et la date de naissance), codage des données et données que vous choisissez d'inclure ou d'exclure. Oracle Data Mining peut effectuer automatiquement une grande partie de la préparation des données requise par l'algorithme. Mais une partie de la préparation des données est généralement spécifique au domaine ou au problème de data mining. Quoi qu'il en soit, vous devez comprendre les données qui ont été utilisées pour construire le modèle afin d'interpréter correctement les résultats lorsque le modèle est appliqué.

Vous souhaitez en savoir plus sur Autonomous Database ?
Nous contacter