Qu'est-ce que l'apprentissage semi-supervisé ?

Michael Chen | Content Strategist | 29 octobre 2024

L'apprentissage semi-supervisé est une forme de machine learning qui implique à la fois des jeux de données d'entraînement étiquetés et non étiquetés. Comme son nom l'indique, cette méthode intègre des éléments d'apprentissage supervisé et d'apprentissage non supervisé. L'apprentissage semi-supervisé utilise un processus en deux étapes. Tout d'abord, l'algorithme d'un projet est initialement entraîné à l'aide d'un jeu de données étiqueté, comme dans l'apprentissage supervisé. Ensuite, l'algorithme poursuit en s'entraînant avec un jeu de données non étiqueté.

L'apprentissage semi-supervisé est idéal lorsque les projets ont beaucoup de données d'entraînement, mais que la plupart ou la totalité d'entre elles ne sont pas étiquetés. Dans le cas de projets avec uniquement des données non étiquetées disponibles, l'apprentissage semi-supervisé peut rendre les projets opérationnels en effectuant une formation initiale avec des données étiquetées manuellement avant de passer à des données d'entraînement uniquement non étiquetées. Avec les projets utilisant cette approche, les équipes doivent prendre soin lors de l'étiquetage manuel des données, car elles deviennent la base sur laquelle le reste du projet est construit.

La décision d'utiliser l'apprentissage semi-supervisé dépend souvent des jeux de données disponibles. À l'ère du big data, les données non étiquetées sont beaucoup plus disponibles et accessibles que les données étiquetées et, selon leur source, elles coûteront moins cher à obtenir.

Pourtant, un projet peut avoir à avancer avec seulement des données non étiquetées. Lorsque cela se produit, les équipes doivent décider s'il est utile d'utiliser la nature exploratoire de l'apprentissage non supervisé plutôt que de consacrer du temps et de l'argent à étiqueter une partie de le jeu de données comme moyen de formation initiale à l'algorithme.

Qu'est-ce que l'apprentissage semi-supervisé ?

L'apprentissage semi-supervisé est une technique de machine learning qui se situe entre le supervisé learning et le non supervisé learning. Il utilise des données étiquetées et non étiquetées pour entraîner des algorithmes et peut fournir de meilleurs résultats que l'utilisation de données étiquetées seules.

Pour décider si l'apprentissage semi-supervisé est approprié pour un projet, les équipes doivent poser les questions suivantes :

  • Quels jeux de données sont disponibles pour ce projet ?
  • L'un de ces jeux de données est-il étiqueté ? Par exemple, les étiquettes d'un jeu de données financières peuvent être des données de transaction avec des étiquettes indiquant si une transaction est frauduleuse ou légitime.
  • Si tous les jeux de données ne sont pas étiquetés, l'équipe dispose-t-elle des ressources nécessaires pour étiqueter au moins certaines données ?
  • Les objectifs du projet sont-ils plus réalisables grâce à un apprentissage supervisé ou non supervisé ? Les facteurs à peser ici comprennent un mélange de pratiques et techniques, y compris les ressources de calcul, le budget, les délais et les résultats souhaités.
  • Notre jeu de données étiquetées est-il suffisant pour enseigner au modèle les modèles et les caractéristiques des transactions frauduleuses et légitimes, par exemple ?

Les réponses à ces questions détermineront la faisabilité. Une fois que la décision est prise d'utiliser l'apprentissage semi-supervisé, la prochaine étape est de préparer deux jeux de données de formation. Le premier est généralement un petit jeu de données étiquetées pour ancrer la formation de base du projet. Le second est plus volumineux (souvent beaucoup plus volumineux) et n'est pas étiqueté. Lorsque le système traite le jeu de données non étiqueté, il génère des pseudo-étiquettes à l'aide de ce qu'il a appris du jeu étiqueté. Ce processus se répète pour affiner l'algorithme et optimiser les performances.

Les types d'apprentissage semi-supervisé les plus courants sont :

  • Auto-entraînement : avec l'auto-entraînement, le processus utilise le jeu de données étiqueté pour entraîner l'algorithme, puis l'entraînement ultérieur génère des pseudo-étiquettes de haute confiance (probabilité supérieure à 99 %) pour le jeu de données non étiqueté, de sorte que tous les enregistrements possèdent des étiquettes. Ensuite, le système s'entraîne sur le jeu de données étendu comportant les données d'entraînement étiquetées d'origine concaténées avec le jeu de données non étiquetées à l'aide de pseudo-étiquettes, ce qui permet d'entraîner des volumes de données plus importants que le jeu de données étiquetées d'origine.
  • Co-formation : avec la co-formation, le processus prend un petit jeu de données étiquetées et l'approche avec deux vues distinctes (groupes de fonctionnalités) axées sur des informations complémentaires et indépendantes. Chaque groupe forme un algorithme distinct, puis procède à des prédictions sur un jeu de données non étiqueté pour classer les pseudo-étiquettes pour chaque modèle résultant. Chaque pseudo-étiquette générée par un classificateur (algorithme qui prédit une étiquette) est fournie avec un score de probabilité, et le pseudo-étiquette avec le score de probabilité le plus élevé est ensuite ajouté à l'autre jeu de données d'entraînement.

Par exemple, un modèle de prévision météorologique peut commencer par un jeu de données utilisant des étiquettes sur des métriques enregistrées, telles que la vitesse du vent, la pression atmosphérique et l'humidité, tandis que l'autre modèle utilise des données plus généralisées, telles que la localisation géographique, la date/heure et les précipitations moyennes enregistrées. Les deux modèles génèrent des pseudo-étiquettes, et lorsque le modèle métrique a un score de probabilité plus élevé que le modèle général, ce pseudo-étiquette est appliqué au modèle général, et vice versa.

Chaque méthode continue l'entraînement pour affiner les zones à faible probabilité jusqu'à ce qu'un modèle final complet soit produit.

Avantages et inconvénients de l'apprentissage semi-supervisé

Avantages Inconvénients
Moins cher. En exploitant les données non étiquetées, l'apprentissage semi-supervisé réduit le besoin d'étiquetage manuel des données, ce qui permet d'économiser du temps et de l'argent. Importance de la qualité des données étiquetées. La précision et la pertinence des données étiquetées affectent considérablement la performance du modèle, de sorte que les soins et l'argent doivent être alloués pour assurer l'étiquetage de qualité.
Amélioration des performances du modèle. Dans de nombreux cas, les modèles d'apprentissage semi-supervisés peuvent obtenir une meilleure précision par rapport aux modèles entraînés uniquement sur des données étiquetées, en particulier lorsque les données étiquetées sont rares. Inadaptés à des jeux de données complexes et hétérogènes. Le modèle peut avoir du mal à trouver des relations significatives entre les données étiquetées et non étiquetées si la structure sous-jacente est trop complexe.
Efficace pour les données non structurées. L'apprentissage semi-supervisé est particulièrement bien adapté aux tâches telles que le texte, la vidéo ou la catégorisation audio, où les données non étiquetées sont souvent abondantes. Transparence limitée. Comprendre comment un modèle d'apprentissage semi-supervisé arrive à ses prédictions et vérifier sa précision peut être plus difficile que l'apprentissage supervisé.

Le machine learning semi-supervisé combine la structure du lancement d'un projet en utilisant l'apprentissage supervisé avec les avantages de l'apprentissage non supervisé, tels que la détection avancée des anomalies et la capacité de découvrir des modèles et des structures cachés dans des données non étiquetées. Bien qu'elle ne soit pas adaptée à toutes les situations, sa flexibilité inhérente en fait une option réalisable pour un large éventail de besoins et d'objectifs de projet.

Les entreprises qui luttent pour développer une stratégie d'IA peuvent constater que l'établissement d'un centre d'excellence les met sur la voie d'un succès durable. Découvrez pourquoi et obtenez une feuille de route pour créer votre centre d'excellence dès maintenant.

FAQ sur l'apprentissage semi-supervisé

Dans quelles situations l'apprentissage semi-supervisé est-il généralement utilisé ?

L'apprentissage semi-supervisé fonctionne mieux lorsque les projets ont accès uniquement ou principalement à des données non étiquetées. Dans ce cas, les équipes peuvent étiqueter manuellement un sous-jeu de données afin de créer le jeu de données d'entraînement pour la première étape, puis permettre au modèle d'explorer le jeu de données non étiqueté.

Quelle est la différence entre l'apprentissage semi-supervisé et l'apprentissage non supervisé ?

L'apprentissage non supervisé permet aux modèles d'explorer des jeux de données non étiquetés dans le but de découvrir des modèles et des relations entre les entrées et les sorties. L'apprentissage semi-supervisé utilise cette méthode, mais avec une étape précurseur de formation de l'algorithme sur un petit jeu de données étiquetées pour construire une direction fondamentale pour le projet.

Quels sont les avantages et les inconvénients de l'apprentissage semi-supervisé ?

Voici quelques avantages de l'apprentissage semi-supervisé :

  • Il utilise des jeux de données étiquetés et non étiquetés.
  • Il existe de meilleures fonctionnalités pour les données non structurées, telles que de gros volumes de texte, de vidéo ou d'audio.
  • Il utilise des jeux de données non étiquetés plus facilement accessibles et moins coûteux.
  • Il améliore des performances du modèle, en particulier avec des données limitées.

Voici les principaux inconvénients de l'apprentissage semi-supervisé :

  • L'étiquetage manuel d'un jeu de données d'entraînement peut s'avérer onéreux et chronophage.
  • Il est potentiellement moins précis et transparent que l'apprentissage supervisé avec des jeux de données étiquetés de qualité.
  • Il n'est pas adapté à certains types de projets, tels que ceux avec des directives strictes ou qui nécessitent des normes de haute précision pour la sécurité.
  • Il n'est pas vraiment adapté à des jeux de données complexes et divers.