Michael Chen | Responsable de la stratégie de contenu | 29 octobre 2024
L'apprentissage semi-supervisé est une forme de machine learning qui implique à la fois des ensembles de données d'entraînement étiquetés et non étiquetés. Comme son nom l'indique, cette méthode intègre des éléments d'apprentissage supervisé et d'apprentissage non supervisé. L'apprentissage semi-supervisé utilise un processus en deux étapes. Tout d'abord, l'algorithme d'un projet est initialement entraîné à l'aide d'un jeu de données étiqueté, comme dans l'apprentissage supervisé. Ensuite, l'algorithme avance en s'entraînant avec un jeu de données non étiqueté.
L'apprentissage semi-supervisé est idéal lorsque les projets ont beaucoup de données de formation, mais que la plupart ou la totalité d'entre eux ne sont pas étiquetés. Dans le cas de projets avec uniquement des données non étiquetées disponibles, l'apprentissage semi-supervisé peut rendre les projets opérationnels en effectuant une formation initiale avec des données étiquetées manuellement avant de passer à des données d'entraînement uniquement non étiquetées. Avec les projets utilisant cette approche, les équipes doivent prendre soin lors de l'étiquetage manuel des données car elles deviennent la base sur laquelle le reste du projet est construit.
La décision d'utiliser l'apprentissage semi-supervisé revient souvent aux ensembles de données disponibles. À l'ère du big data, les données non étiquetées sont beaucoup plus disponibles et accessibles que les données étiquetées, et selon la source, elles coûteront moins cher à obtenir.
Pourtant, un projet peut avoir à avancer avec seulement des données non étiquetées. Lorsque cela se produit, les équipes doivent décider s'il est utile d'utiliser la nature exploratoire de l'apprentissage non supervisé plutôt que de consacrer du temps et de l'argent à étiqueter une partie de l'ensemble de données comme moyen de formation initiale à l'algorithme.
Le semi-supervisé est une technique de machine learning qui se situe entre le supervisé learning et le non supervisé learning. Il utilise des données étiquetées et non étiquetées pour entraîner des algorithmes et peut fournir de meilleurs résultats que l'utilisation de données étiquetées seules.
Pour décider si l'apprentissage semi-supervisé est approprié pour un projet, les équipes doivent poser les questions suivantes :
Les réponses à ces questions détermineront la faisabilité. Une fois que la décision est prise d'aller avec l'apprentissage semi-supervisé, la prochaine étape est de préparer deux ensembles de données de formation. Le premier est généralement un petit ensemble de données étiquetées pour ancrer la formation de base du projet. Le second ensemble de données d'entraînement est plus volumineux (souvent beaucoup plus volumineux) et n'est pas étiqueté. Lorsque le système traite le jeu de données non étiqueté, il génère des pseudo-étiquettes à l'aide de ce qu'il a appris du jeu étiqueté. Ce processus se répète pour affiner l'algorithme et optimiser les performances.
Les types d'apprentissage semi-supervisé les plus courants sont :
Par exemple, un modèle de prévision météorologique peut commencer par un ensemble de données utilisant des étiquettes sur des métriques enregistrées, telles que la vitesse du vent, la pression atmosphérique et l'humidité, tandis que l'autre modèle utilise des données plus généralisées, telles que la localisation géographique, la date/heure et les précipitations moyennes enregistrées. Les deux modèles génèrent des pseudo-étiquettes, et lorsque le modèle métrique a un score de probabilité plus élevé que le modèle général, ce pseudo-étiquette est appliqué au modèle général, et vice versa.
Chaque méthode continue la formation pour affiner les zones à faible probabilité jusqu'à ce qu'un modèle final complet soit produit.
| Pros | Cons. |
|---|---|
| Moins cher. En exploitant les données non étiquetées, l'apprentissage semi-supervisé réduit le besoin d'étiquetage manuel des données, ce qui permet d'économiser du temps et de l'argent. | Respect de la qualité des données étiquetées. La précision et la pertinence des données étiquetées affectent considérablement la performance du modèle, de sorte que les soins et l'argent doivent être alloués pour assurer l'étiquetage de qualité. |
| Amélioration des performances du modèle. Dans de nombreux cas, les modèles d'apprentissage semi-supervisés peuvent obtenir une meilleure précision par rapport aux modèles entraînés uniquement sur des données étiquetées, en particulier lorsque les données étiquetées sont rares. | Inadaptés à des ensembles de données complexes et divers. Le modèle peut avoir du mal à trouver des relations significatives entre les données étiquetées et non étiquetées si la structure sous-jacente est trop complexe. |
| Effectif pour les données non structurées. L'apprentissage semi-supervisé est particulièrement bien adapté aux tâches telles que le texte, la vidéo ou la catégorisation audio, où les données non étiquetées sont souvent abondantes. | Transparence limitée. Comprendre comment un modèle d'apprentissage semi-supervisé arrive à ses prédictions et vérifier sa précision peut être plus difficile que l'apprentissage supervisé. |
L'apprentissage automatique semi-supervisé combine la structure du lancement d'un projet en utilisant l'apprentissage supervisé avec les avantages de l'apprentissage non supervisé, tels que la détection avancée des anomalies et la capacité de découvrir des modèles et des structures cachés dans des données non étiquetées. Bien qu'elle ne soit pas adaptée à toutes les situations, sa flexibilité inhérente en fait une option réalisable pour un large éventail de besoins et d'objectifs de projet.
Les entreprises qui luttent pour développer une stratégie d'IA peuvent constater que l'établissement d'un centre d'excellence les met sur la voie d'un succès durable. Découvrez pourquoi et obtenez une feuille de route pour créer votre CoE dès maintenant.
Dans quelles situations l'apprentissage semi-supervisé est-il généralement utilisé ?
L'apprentissage semi-supervisé fonctionne mieux lorsque les projets ont accès uniquement ou principalement à des données non étiquetées. Dans ce cas, les équipes peuvent étiqueter manuellement un sous-ensemble de données afin de créer le jeu de données d'entraînement pour la première étape, puis permettre au modèle d'explorer le jeu de données non étiqueté.
Quelle est la différence entre l'apprentissage semi-supervisé et l'apprentissage non supervisé ?
L'apprentissage non supervisé permet aux modèles d'explorer des ensembles de données non étiquetés dans le but de découvrir des modèles et des relations entre les entrées et les sorties. L'apprentissage semi-supervisé utilise cette méthode, mais avec une étape précurseur de formation de l'algorithme sur un petit ensemble de données étiquetées pour construire une direction fondamentale pour le projet.
Quels sont les avantages et les inconvénients de l'apprentissage semi-supervisé ?
Les avantages de l'apprentissage semi-supervisé comprennent :
Les inconvénients de l'apprentissage semi-supervisé comprennent :