Qu'est-ce que le semi-supervisé ?

Michael Chen | Responsable de la stratégie de contenu | 29 octobre 2024

L'apprentissage semi-supervisé est une forme de machine learning qui implique à la fois des ensembles de données d'entraînement étiquetés et non étiquetés. Comme son nom l'indique, cette méthode intègre des éléments d'apprentissage supervisé et d'apprentissage non supervisé. L'apprentissage semi-supervisé utilise un processus en deux étapes. Tout d'abord, l'algorithme d'un projet est initialement entraîné à l'aide d'un jeu de données étiqueté, comme dans l'apprentissage supervisé. Ensuite, l'algorithme avance en s'entraînant avec un jeu de données non étiqueté.

L'apprentissage semi-supervisé est idéal lorsque les projets ont beaucoup de données de formation, mais que la plupart ou la totalité d'entre eux ne sont pas étiquetés. Dans le cas de projets avec uniquement des données non étiquetées disponibles, l'apprentissage semi-supervisé peut rendre les projets opérationnels en effectuant une formation initiale avec des données étiquetées manuellement avant de passer à des données d'entraînement uniquement non étiquetées. Avec les projets utilisant cette approche, les équipes doivent prendre soin lors de l'étiquetage manuel des données car elles deviennent la base sur laquelle le reste du projet est construit.

La décision d'utiliser l'apprentissage semi-supervisé revient souvent aux ensembles de données disponibles. À l'ère du big data, les données non étiquetées sont beaucoup plus disponibles et accessibles que les données étiquetées, et selon la source, elles coûteront moins cher à obtenir.

Pourtant, un projet peut avoir à avancer avec seulement des données non étiquetées. Lorsque cela se produit, les équipes doivent décider s'il est utile d'utiliser la nature exploratoire de l'apprentissage non supervisé plutôt que de consacrer du temps et de l'argent à étiqueter une partie de l'ensemble de données comme moyen de formation initiale à l'algorithme.

Qu'est-ce que le semi-supervisé ?

Le semi-supervisé est une technique de machine learning qui se situe entre le supervisé learning et le non supervisé learning. Il utilise des données étiquetées et non étiquetées pour entraîner des algorithmes et peut fournir de meilleurs résultats que l'utilisation de données étiquetées seules.

Pour décider si l'apprentissage semi-supervisé est approprié pour un projet, les équipes doivent poser les questions suivantes :

  • Quels ensembles de données sont disponibles pour ce projet ?
  • L'un de ces jeux de données est-il étiqueté ? Par exemple, les étiquettes d'un jeu de données financières peuvent être des données de transaction avec des étiquettes indiquant si une transaction est frauduleuse ou légitime.
  • Si tous les jeux de données ne sont pas étiquetés, l'équipe dispose-t-elle des ressources nécessaires pour étiqueter au moins certaines données ?
  • Les objectifs du projet sont-ils plus réalisables grâce à un apprentissage supervisé ou non supervisé ? Les facteurs à peser ici comprennent un mélange de pratiques et techniques, y compris les ressources de calcul, le budget, les délais et les résultats souhaités.
  • Notre ensemble de données étiquetées est-il suffisant pour enseigner au modèle les modèles et les caractéristiques des transactions frauduleuses et légitimes, par exemple ?

Les réponses à ces questions détermineront la faisabilité. Une fois que la décision est prise d'aller avec l'apprentissage semi-supervisé, la prochaine étape est de préparer deux ensembles de données de formation. Le premier est généralement un petit ensemble de données étiquetées pour ancrer la formation de base du projet. Le second ensemble de données d'entraînement est plus volumineux (souvent beaucoup plus volumineux) et n'est pas étiqueté. Lorsque le système traite le jeu de données non étiqueté, il génère des pseudo-étiquettes à l'aide de ce qu'il a appris du jeu étiqueté. Ce processus se répète pour affiner l'algorithme et optimiser les performances.

Les types d'apprentissage semi-supervisé les plus courants sont :

  • Auto-entraînement : avec l'auto-entraînement, le processus utilise le jeu de données étiqueté pour entraîner l'algorithme, puis l'entraînement ultérieur génère des pseudo-étiquettes de haute confiance (probabilité supérieure à 99 %) pour le jeu de données non étiqueté, de sorte que tous les enregistrements possèdent des étiquettes. Ensuite, le système s'entraîne sur l'ensemble de données étendu comportant les données d'entraînement étiquetées d'origine concaténées avec l'ensemble de données non étiquetées à l'aide de pseudo-étiquettes, ce qui permet d'entraîner des volumes de données plus importants que l'ensemble de données étiquetées d'origine.
  • Co-formation : avec la co-formation, le processus prend un petit ensemble de données étiquetées et l'approche avec deux vues distinctes (groupes de fonctionnalités) axées sur des informations complémentaires et indépendantes. Chaque groupe forme un algorithme distinct, puis procède à des prédictions sur un jeu de données non étiqueté pour classer les pseudo-étiquettes pour chaque modèle résultant. Chaque pseudo-étiquette générée par un classificateur (algorithme qui prédit une étiquette) est fournie avec un score de probabilité, et le pseudo-étiquette avec le score de probabilité le plus élevé est ensuite ajouté à l'autre jeu de données d'entraînement.

Par exemple, un modèle de prévision météorologique peut commencer par un ensemble de données utilisant des étiquettes sur des métriques enregistrées, telles que la vitesse du vent, la pression atmosphérique et l'humidité, tandis que l'autre modèle utilise des données plus généralisées, telles que la localisation géographique, la date/heure et les précipitations moyennes enregistrées. Les deux modèles génèrent des pseudo-étiquettes, et lorsque le modèle métrique a un score de probabilité plus élevé que le modèle général, ce pseudo-étiquette est appliqué au modèle général, et vice versa.

Chaque méthode continue la formation pour affiner les zones à faible probabilité jusqu'à ce qu'un modèle final complet soit produit.

Avantages et inconvénients de l'apprentissage semi-supervisé

Pros Cons.
Moins cher. En exploitant les données non étiquetées, l'apprentissage semi-supervisé réduit le besoin d'étiquetage manuel des données, ce qui permet d'économiser du temps et de l'argent. Respect de la qualité des données étiquetées. La précision et la pertinence des données étiquetées affectent considérablement la performance du modèle, de sorte que les soins et l'argent doivent être alloués pour assurer l'étiquetage de qualité.
Amélioration des performances du modèle. Dans de nombreux cas, les modèles d'apprentissage semi-supervisés peuvent obtenir une meilleure précision par rapport aux modèles entraînés uniquement sur des données étiquetées, en particulier lorsque les données étiquetées sont rares. Inadaptés à des ensembles de données complexes et divers. Le modèle peut avoir du mal à trouver des relations significatives entre les données étiquetées et non étiquetées si la structure sous-jacente est trop complexe.
Effectif pour les données non structurées. L'apprentissage semi-supervisé est particulièrement bien adapté aux tâches telles que le texte, la vidéo ou la catégorisation audio, où les données non étiquetées sont souvent abondantes. Transparence limitée. Comprendre comment un modèle d'apprentissage semi-supervisé arrive à ses prédictions et vérifier sa précision peut être plus difficile que l'apprentissage supervisé.

L'apprentissage automatique semi-supervisé combine la structure du lancement d'un projet en utilisant l'apprentissage supervisé avec les avantages de l'apprentissage non supervisé, tels que la détection avancée des anomalies et la capacité de découvrir des modèles et des structures cachés dans des données non étiquetées. Bien qu'elle ne soit pas adaptée à toutes les situations, sa flexibilité inhérente en fait une option réalisable pour un large éventail de besoins et d'objectifs de projet.

Les entreprises qui luttent pour développer une stratégie d'IA peuvent constater que l'établissement d'un centre d'excellence les met sur la voie d'un succès durable. Découvrez pourquoi et obtenez une feuille de route pour créer votre CoE dès maintenant.

FAQ sur l'apprentissage semi-supervisé

Dans quelles situations l'apprentissage semi-supervisé est-il généralement utilisé ?

L'apprentissage semi-supervisé fonctionne mieux lorsque les projets ont accès uniquement ou principalement à des données non étiquetées. Dans ce cas, les équipes peuvent étiqueter manuellement un sous-ensemble de données afin de créer le jeu de données d'entraînement pour la première étape, puis permettre au modèle d'explorer le jeu de données non étiqueté.

Quelle est la différence entre l'apprentissage semi-supervisé et l'apprentissage non supervisé ?

L'apprentissage non supervisé permet aux modèles d'explorer des ensembles de données non étiquetés dans le but de découvrir des modèles et des relations entre les entrées et les sorties. L'apprentissage semi-supervisé utilise cette méthode, mais avec une étape précurseur de formation de l'algorithme sur un petit ensemble de données étiquetées pour construire une direction fondamentale pour le projet.

Quels sont les avantages et les inconvénients de l'apprentissage semi-supervisé ?

Les avantages de l'apprentissage semi-supervisé comprennent :

  • Il utilise des jeux de données étiquetés et non étiquetés.
  • Il existe de meilleures fonctionnalités pour les données non structurées, telles que de gros volumes de texte, de vidéo ou d'audio.
  • Il utilise des ensembles de données non étiquetés plus facilement accessibles et moins coûteux.
  • Amélioration des performances du modèle, en particulier avec des données limitées.

Les inconvénients de l'apprentissage semi-supervisé comprennent :

  • L'étiquetage manuel d'un jeu de données d'entraînement peut nécessiter du temps et de l'argent.
  • Il y a potentiellement moins de précision et de transparence que l'apprentissage supervisé avec des ensembles de données étiquetés de qualité.
  • Il n'est pas adapté à certains types de projets, tels que ceux avec des directives strictes ou qui nécessitent des normes de haute précision pour la sécurité.
  • Mal adapté à des ensembles de données complexes et divers.