¿Qué es el Aprendizaje Semisupervisado?

Michael Chen | Estratega de contenido | 29 de octubre de 2024

El aprendizaje semi-supervisado es una forma de aprendizaje automático que implica conjuntos de datos de entrenamiento etiquetados y sin etiquetar. Como se infiere por su nombre, este método incorpora elementos tanto de aprendizaje supervisado como de aprendizaje no supervisado. El aprendizaje semi-supervisado utiliza un proceso de dos pasos. En primer lugar, el algoritmo de un proyecto se entrena inicialmente utilizando un conjunto de datos etiquetados, como en el aprendizaje supervisado. Después de eso, el algoritmo avanza entrenando con un juego de datos sin etiquetas.

El aprendizaje semi-supervisado es ideal cuando los proyectos tienen una gran cantidad de datos de entrenamiento, pero la mayoría o todo está sin etiquetar. En el caso de proyectos con solo datos sin etiquetar disponibles, el aprendizaje semi-supervisado puede poner en marcha los proyectos llevando a cabo el entrenamiento inicial con datos etiquetados manualmente antes de cambiar a solo datos no etiquetados. Con los proyectos que utilizan este enfoque, los equipos deben tener cuidado al etiquetar manualmente los datos porque se convierten en la base sobre la que se construye el resto del proyecto.

La decisión de utilizar el aprendizaje semi-supervisado a menudo se reduce a los conjuntos de datos disponibles. En la era del big data, los datos sin etiquetar están mucho más disponibles y accesibles que los datos etiquetados, y dependiendo de la fuente, costará menos obtenerlos.

Aún así, un proyecto puede tener que seguir adelante con solo datos sin etiquetar. Cuando esto sucede, los equipos deben decidir si es útil emplear la naturaleza exploratoria del aprendizaje no supervisado en lugar de gastar el tiempo y el dinero para etiquetar parte del conjunto de datos como un medio de entrenamiento inicial de algoritmos.

¿Qué es el Aprendizaje Semisupervisado?

El aprendizaje semi-supervisado es una técnica de aprendizaje automático que se encuentra entre el aprendizaje supervisado y el aprendizaje no supervisado. Utiliza datos etiquetados y no etiquetados para entrenar algoritmos y puede ofrecer mejores resultados que el uso de datos etiquetados solo.

Para decidir si el aprendizaje semi-supervisado es apropiado para un proyecto, los equipos deben hacer preguntas que incluyen las siguientes:

  • ¿Qué conjuntos de datos tenemos disponibles para este proyecto?
  • ¿Alguno de estos juegos de datos está etiquetado? Un ejemplo de etiquetas para un juego de datos financieros pueden ser datos de transacciones con etiquetas que indican si una transacción es fraudulenta o legítima.
  • Si los conjuntos de datos no están etiquetados, ¿dispone el equipo de los recursos para etiquetar al menos algunos?
  • ¿Los objetivos del proyecto son más alcanzables a través del aprendizaje supervisado o no supervisado? Los factores que se deben considerar aquí incluyen una combinación de aspectos prácticos y técnicos, incluidos los recursos informáticos, el presupuesto, los plazos y los resultados deseados.
  • ¿Es nuestro conjunto de datos etiquetados suficiente para enseñar al modelo los patrones y características , por ejemplo, de transacciones fraudulentas y legítimas?

Las respuestas a estas preguntas determinarán la viabilidad. Una vez que se toma la decisión de ir con el aprendizaje semi-supervisado, el siguiente paso es preparar dos conjuntos de datos de entrenamiento. El primero es generalmente un pequeño conjunto de datos etiquetados para anclar la capacitación fundamental del proyecto. El segundo juego de datos de entrenamiento es más grande (a menudo mucho más grande) y no está etiquetado. Cuando el sistema procesa el conjunto de datos sin etiquetar, genera pseudoetiquetas utilizando lo aprendido del conjunto con etiquetas. A continuación, este proceso itera para acotar el algoritmo y optimizar el rendimiento.

Los tipos más comunes de aprendizaje semi-supervisado son:

  • Autoentrenamiento: con el autoentrenamiento, el proceso utiliza el juego de datos con etiquetas para entrenar el algoritmo y, a continuación, el entrenamiento posterior genera pseudoetiquetas de alta confianza (más del 99 % de probabilidad) para el juego de datos sin etiquetas de modo que todos los registros tengan etiquetas. A continuación, el sistema se entrena utilizando el conjunto de datos ampliado con los datos de entrenamiento etiquetados originales concatenados con el conjunto de datos sin etiquetar por medio de pseudoetiquetas, lo que permite realizar el entrenamiento en función de mayores volúmenes de datos en comparación con el conjunto de datos etiquetado original.
  • Co-training: con el co-training, el proceso toma un pequeño conjunto de datos etiquetados y lo aborda con dos vistas distintas (grupos de funciones) que se centran en la información complementaria e independiente. Cada grupo entrena un algoritmo independiente y, a continuación, realiza predicciones sobre un juego de datos sin etiquetar para clasificar las pseudoetiquetas para cada modelo resultante. Cada pseudoetiqueta generada por un clasificador (un algoritmo que predice una etiqueta) viene con una puntuación de probabilidad, y la pseudoetiqueta con la puntuación de probabilidad más alta se agrega al otro juego de datos de entrenamiento.

Por ejemplo, un modelo de previsión meteorológica puede comenzar con un conjunto de datos que utilice etiquetas en métricas registradas, como la velocidad del viento, la presión atmosférica y la humedad, mientras que el otro modelo utiliza datos más generalizados, como la ubicación geográfica, la fecha y hora, y la precipitación media registrada. Ambos modelos generan pseudoetiquetas, y cuando el modelo de métricas tiene una puntuación de probabilidad más alta que el modelo general, esa pseudoetiqueta se aplica al modelo general y viceversa.

Cada método continúa entrenando para refinar áreas con resultados de baja probabilidad hasta que se produzca un modelo final integral.

Ventajas y desventajas del aprendizaje semi-supervisado

Ventajas Desventajas
Menos caro. Al aprovechar los datos sin etiquetar, el aprendizaje semi-supervisado reduce la necesidad de un amplio etiquetado manual de datos, lo que ahorra tiempo y dinero. Sensible a la calidad de los datos etiquetados. La precisión y relevancia de los datos etiquetados afecta significativamente el rendimiento del modelo, por lo que se debe asignar cuidado y dinero para garantizar el etiquetado de calidad.
Mejora del rendimiento del modelo. En muchos casos, los modelos de aprendizaje semi-supervisados pueden lograr una mejor precisión en comparación con los modelos entrenados solo en datos etiquetados, especialmente cuando los datos etiquetados son escasos. No adaptados a conjuntos de datos complejos y diversos. El modelo podría tener dificultades para encontrar relaciones significativas entre los datos etiquetados y los no etiquetados si la estructura subyacente es demasiado compleja.
Eficaz para datos no estructurados. El aprendizaje semi-supervisado es particularmente adecuado para tareas como la categorización de texto, video o audio, donde los datos sin etiquetar a menudo son abundantes. Transparencia limitada. Comprender cómo un modelo de aprendizaje semi-supervisado llega a sus predicciones y comprobar la precisión puede ser más difícil en comparación con el aprendizaje supervisado.

El aprendizaje automático semi-supervisado combina la estructura de lanzamiento de un proyecto utilizando el aprendizaje supervisado con los beneficios del aprendizaje no supervisado, como la detección avanzada de anomalías y la capacidad de descubrir patrones y estructuras ocultas dentro de los datos sin etiquetar. Si bien no es adecuado para cada situación, su flexibilidad inherente la convierte en una opción factible para un amplio espectro de necesidades y objetivos del proyecto.

Las empresas que luchan por desarrollar una estrategia de IA pueden encontrar que el establecimiento de un centro de excelencia los coloca en un camino hacia el éxito sostenible. Descubre por qué y obtén una hoja de ruta para crear tu CoE ahora.

Preguntas frecuentes sobre aprendizaje semi-supervisado

¿En qué situaciones se suele utilizar el aprendizaje semi-supervisado?

El aprendizaje semi-supervisado funciona mejor cuando los proyectos tienen acceso solo o en su mayoría a datos sin etiquetar. En esas circunstancias, los equipos pueden etiquetar manualmente un subjuego de datos para crear el juego de datos de entrenamiento para el primer paso y, a continuación, permitir que el modelo explore el juego de datos sin etiquetar.

¿Cuál es la diferencia entre el aprendizaje semi-supervisado y el no supervisado?

El aprendizaje no supervisado permite a los modelos explorar conjuntos de datos sin etiquetar con el objetivo de descubrir patrones y relaciones entre entradas y salidas por sí solos. El aprendizaje semi-supervisado utiliza este método, pero comenzando el enternamiento del algoritmo con un pequeño conjunto de datos etiquetados, de cara a fijar el rumbo del proyecto.

¿Cuáles son algunos pros y contras del aprendizaje semi-supervisado?

Los pros del aprendizaje semi-supervisado incluyen:

  • Utiliza juegos de datos con etiquetas y sin etiquetas.
  • Hay mejores capacidades para los datos no estructurados, como grandes volúmenes de texto, vídeo o audio.
  • Utiliza conjuntos de datos sin etiquetar más accesibles y menos costosos.
  • Rendimiento mejorado del modelo, especialmente con datos limitados.

Entre las principales desventajas del aprendizaje semi-supervisado incluyen:

  • Puede que se necesite tiempo y dinero para etiquetar manualmente un juego de datos de entrenamiento.
  • Existe una menor precisión y transparencia en comparación con el aprendizaje supervisado con conjuntos de datos etiquetados de calidad.
  • No es adecuado para algunos tipos de proyectos, como aquellos con directrices estrictas o que requieren altos estándares de precisión para la seguridad.
  • No es adecuado para conjuntos de datos complejos y diversos.