Michael Chen | Estrategia de contenido | 29 de octubre de 2024
El aprendizaje semisupervisado es una forma de aprendizaje automático que implica conjuntos de datos de entrenamiento etiquetados y sin etiquetar. Como se infiere por su nombre, este método incorpora elementos tanto de aprendizaje supervisado como de aprendizaje no supervisado. El aprendizaje semisupervisado utiliza un proceso de dos pasos. En primer lugar, el algoritmo de un proyecto se entrena inicialmente utilizando un conjunto de datos etiquetados, como en el aprendizaje supervisado. Después de eso, el algoritmo avanza entrenando con un juego de datos sin etiquetas.
El aprendizaje semisupervisado es ideal cuando los proyectos tienen una gran cantidad de datos de entrenamiento, pero la mayoría o todo está sin etiquetar. En el caso de proyectos con solo datos sin etiquetar disponibles, el aprendizaje semisupervisado puede poner en marcha los proyectos realizando la formación inicial con datos etiquetados manualmente antes de cambiar a datos de formación sin etiquetar únicamente. Con los proyectos que utilizan este enfoque, los equipos deben tener cuidado al etiquetar manualmente los datos porque se convierten en la base sobre la que se construye el resto del proyecto.
La decisión de utilizar el aprendizaje semisupervisado a menudo se reduce a los conjuntos de datos disponibles. En la era del big data, los datos sin etiquetar están mucho más disponibles y accesibles que los datos etiquetados, y dependiendo de la fuente, costará menos obtenerlos.
Aún así, un proyecto puede tener que seguir adelante solo con datos sin etiquetar. Cuando esto sucede, los equipos deben decidir si es útil emplear la naturaleza exploratoria del aprendizaje no supervisado en lugar de gastar el tiempo y el dinero para etiquetar parte del conjunto de datos como un medio de entrenamiento inicial de algoritmos.
El aprendizaje semisupervisado es una técnica de aprendizaje automático que se encuentra entre el aprendizaje supervisado y el aprendizaje no supervisado. Utiliza datos etiquetados y no etiquetados para entrenar algoritmos y puede ofrecer mejores resultados que el uso de datos etiquetados solo.
Para decidir si el aprendizaje semisupervisado es apropiado para un proyecto, los equipos deben preguntarse cosas como la siguiente:
Las respuestas a estas preguntas determinarán la viabilidad. Una vez que se toma la decisión de utilizar el aprendizaje semisupervisado, el siguiente paso es preparar dos conjuntos de datos de entrenamiento. El primero es generalmente un pequeño conjunto de datos etiquetados para anclar la capacitación fundamental del proyecto. El segundo conjunto de datos de entrenamiento es más grande (a menudo mucho más grande) y no está etiquetado. Cuando el sistema procesa el conjunto de datos no etiquetados, genera pseudoetiquetas utilizando lo aprendido del conjunto con etiquetas. A continuación, este proceso itera para acotar el algoritmo y optimizar el rendimiento.
Los tipos más comunes de aprendizaje semisupervisado son:
Por ejemplo, un modelo de previsión meteorológica puede comenzar con un conjunto de datos que utilice etiquetas en métricas registradas, como la velocidad del viento, la presión atmosférica y la humedad, mientras que el otro modelo utiliza datos más generalizados, como la ubicación geográfica, la fecha y hora, y la precipitación media registrada. Ambos modelos generan pseudoetiquetas, y cuando el modelo de métricas tiene una puntuación de probabilidad más alta que el modelo general, esa pseudoetiqueta se aplica al modelo general y viceversa.
Cada método continúa entrenando para ajustar áreas con resultados de baja probabilidad hasta que se produzca un modelo final exhaustivo.
| Pros | Contras |
|---|---|
| Menos caro. Al aprovechar los datos sin etiquetar, el aprendizaje semisupervisado reduce la necesidad de un amplio etiquetado manual de datos, lo que ahorra tiempo y dinero. | Sensible a la calidad de los datos etiquetados. La precisión y relevancia de los datos etiquetados afecta significativamente al rendimiento del modelo, por lo que se debe asignar cuidado y dinero para garantizar el etiquetado de calidad. |
| Mejora del rendimiento del modelo. En muchos casos, los modelos de aprendizaje semisupervisados pueden mejorar la precisión frente a los modelos entrenados solo en datos etiquetados, especialmente cuando los datos etiquetados son escasos. | No adecuados para conjuntos de datos complejos y diversos. El modelo podría tener dificultades para encontrar relaciones significativas entre los datos etiquetados y los no etiquetados si la estructura subyacente es demasiado compleja. |
| Eficaz para datos no estructurados. El aprendizaje semisupervisado es particularmente adecuado para tareas como la categorización de texto, video o audio, donde los datos sin etiquetar a menudo son abundantes. | Transparencia limitada. Comprender cómo un modelo de aprendizaje semisupervisado llega a sus predicciones y comprobar la precisión puede ser más difícil en comparación con el aprendizaje supervisado. |
El aprendizaje automático semisupervisado combina la estructura de lanzamiento de un proyecto utilizando el aprendizaje supervisado con los beneficios del aprendizaje no supervisado, como la detección avanzada de anomalías y la capacidad de descubrir patrones y estructuras ocultas dentro de los datos sin etiquetar. Si bien no es adecuado para todas las situaciones, su flexibilidad inherente la convierte en una opción factible para un amplio espectro de necesidades y objetivos del proyecto.
Las empresas que luchan por desarrollar una estrategia de IA pueden encontrar que el establecimiento de un centro de excelencia los coloca en un camino hacia el éxito sostenible. Descubre por qué y obtén una hoja de ruta para crear tu Centro de Excelencia ahora.
¿En qué situaciones se suele utilizar el aprendizaje semisupervisado?
El aprendizaje semisupervisado funciona mejor cuando los proyectos tienen acceso solo o en su mayoría a datos sin etiquetar. En esas circunstancias, los equipos pueden etiquetar manualmente un subconjunto de datos para crear el juego de datos de entrenamiento para el primer paso y, a continuación, permitir que el modelo explore el conjunto de datos sin etiquetar.
¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?
El aprendizaje no supervisado permite a los modelos explorar conjuntos de datos sin etiquetar con el objetivo de descubrir patrones y relaciones entre inputs y outputs por sí solos. El aprendizaje semisupervisado utiliza este método, pero con un paso precursor de entrenamiento del algoritmo en un pequeño conjunto de datos etiquetados para construir una dirección fundamental para el proyecto.
¿Cuáles son algunos pros y contras del aprendizaje semisupervisado?
Los pros del aprendizaje semisupervisado incluyen:
Entre las desventajas del aprendizaje semisupervisado se incluyen la siguientes: