Michael Chen | Estratega de contenido | 29 de octubre de 2024
El aprendizaje semi-supervisado es una forma de aprendizaje automático que implica conjuntos de datos de entrenamiento etiquetados y sin etiquetar. Como se infiere por su nombre, este método incorpora elementos tanto de aprendizaje supervisado como de aprendizaje no supervisado. El aprendizaje semi-supervisado utiliza un proceso de dos pasos. En primer lugar, el algoritmo de un proyecto se entrena inicialmente utilizando un conjunto de datos etiquetados, como en el aprendizaje supervisado. Después de eso, el algoritmo avanza entrenando con un juego de datos sin etiquetas.
El aprendizaje semi-supervisado es ideal cuando los proyectos tienen una gran cantidad de datos de entrenamiento, pero la mayoría o todo está sin etiquetar. En el caso de proyectos con solo datos sin etiquetar disponibles, el aprendizaje semi-supervisado puede poner en marcha los proyectos llevando a cabo el entrenamiento inicial con datos etiquetados manualmente antes de cambiar a solo datos no etiquetados. Con los proyectos que utilizan este enfoque, los equipos deben tener cuidado al etiquetar manualmente los datos porque se convierten en la base sobre la que se construye el resto del proyecto.
La decisión de utilizar el aprendizaje semi-supervisado a menudo se reduce a los conjuntos de datos disponibles. En la era del big data, los datos sin etiquetar están mucho más disponibles y accesibles que los datos etiquetados, y dependiendo de la fuente, costará menos obtenerlos.
Aún así, un proyecto puede tener que seguir adelante con solo datos sin etiquetar. Cuando esto sucede, los equipos deben decidir si es útil emplear la naturaleza exploratoria del aprendizaje no supervisado en lugar de gastar el tiempo y el dinero para etiquetar parte del conjunto de datos como un medio de entrenamiento inicial de algoritmos.
El aprendizaje semi-supervisado es una técnica de aprendizaje automático que se encuentra entre el aprendizaje supervisado y el aprendizaje no supervisado. Utiliza datos etiquetados y no etiquetados para entrenar algoritmos y puede ofrecer mejores resultados que el uso de datos etiquetados solo.
Para decidir si el aprendizaje semi-supervisado es apropiado para un proyecto, los equipos deben hacer preguntas que incluyen las siguientes:
Las respuestas a estas preguntas determinarán la viabilidad. Una vez que se toma la decisión de ir con el aprendizaje semi-supervisado, el siguiente paso es preparar dos conjuntos de datos de entrenamiento. El primero es generalmente un pequeño conjunto de datos etiquetados para anclar la capacitación fundamental del proyecto. El segundo juego de datos de entrenamiento es más grande (a menudo mucho más grande) y no está etiquetado. Cuando el sistema procesa el conjunto de datos sin etiquetar, genera pseudoetiquetas utilizando lo aprendido del conjunto con etiquetas. A continuación, este proceso itera para acotar el algoritmo y optimizar el rendimiento.
Los tipos más comunes de aprendizaje semi-supervisado son:
Por ejemplo, un modelo de previsión meteorológica puede comenzar con un conjunto de datos que utilice etiquetas en métricas registradas, como la velocidad del viento, la presión atmosférica y la humedad, mientras que el otro modelo utiliza datos más generalizados, como la ubicación geográfica, la fecha y hora, y la precipitación media registrada. Ambos modelos generan pseudoetiquetas, y cuando el modelo de métricas tiene una puntuación de probabilidad más alta que el modelo general, esa pseudoetiqueta se aplica al modelo general y viceversa.
Cada método continúa entrenando para refinar áreas con resultados de baja probabilidad hasta que se produzca un modelo final integral.
| Ventajas | Desventajas |
|---|---|
| Menos caro. Al aprovechar los datos sin etiquetar, el aprendizaje semi-supervisado reduce la necesidad de un amplio etiquetado manual de datos, lo que ahorra tiempo y dinero. | Sensible a la calidad de los datos etiquetados. La precisión y relevancia de los datos etiquetados afecta significativamente el rendimiento del modelo, por lo que se debe asignar cuidado y dinero para garantizar el etiquetado de calidad. |
| Mejora del rendimiento del modelo. En muchos casos, los modelos de aprendizaje semi-supervisados pueden lograr una mejor precisión en comparación con los modelos entrenados solo en datos etiquetados, especialmente cuando los datos etiquetados son escasos. | No adaptados a conjuntos de datos complejos y diversos. El modelo podría tener dificultades para encontrar relaciones significativas entre los datos etiquetados y los no etiquetados si la estructura subyacente es demasiado compleja. |
| Eficaz para datos no estructurados. El aprendizaje semi-supervisado es particularmente adecuado para tareas como la categorización de texto, video o audio, donde los datos sin etiquetar a menudo son abundantes. | Transparencia limitada. Comprender cómo un modelo de aprendizaje semi-supervisado llega a sus predicciones y comprobar la precisión puede ser más difícil en comparación con el aprendizaje supervisado. |
El aprendizaje automático semi-supervisado combina la estructura de lanzamiento de un proyecto utilizando el aprendizaje supervisado con los beneficios del aprendizaje no supervisado, como la detección avanzada de anomalías y la capacidad de descubrir patrones y estructuras ocultas dentro de los datos sin etiquetar. Si bien no es adecuado para cada situación, su flexibilidad inherente la convierte en una opción factible para un amplio espectro de necesidades y objetivos del proyecto.
Las empresas que luchan por desarrollar una estrategia de IA pueden encontrar que el establecimiento de un centro de excelencia los coloca en un camino hacia el éxito sostenible. Descubre por qué y obtén una hoja de ruta para crear tu CoE ahora.
¿En qué situaciones se suele utilizar el aprendizaje semi-supervisado?
El aprendizaje semi-supervisado funciona mejor cuando los proyectos tienen acceso solo o en su mayoría a datos sin etiquetar. En esas circunstancias, los equipos pueden etiquetar manualmente un subjuego de datos para crear el juego de datos de entrenamiento para el primer paso y, a continuación, permitir que el modelo explore el juego de datos sin etiquetar.
¿Cuál es la diferencia entre el aprendizaje semi-supervisado y el no supervisado?
El aprendizaje no supervisado permite a los modelos explorar conjuntos de datos sin etiquetar con el objetivo de descubrir patrones y relaciones entre entradas y salidas por sí solos. El aprendizaje semi-supervisado utiliza este método, pero comenzando el enternamiento del algoritmo con un pequeño conjunto de datos etiquetados, de cara a fijar el rumbo del proyecto.
¿Cuáles son algunos pros y contras del aprendizaje semi-supervisado?
Los pros del aprendizaje semi-supervisado incluyen:
Entre las principales desventajas del aprendizaje semi-supervisado incluyen: