¿Qué es el aprendizaje semisupervisado?

Michael Chen | Estrategia de contenido | 29 de octubre de 2024

El aprendizaje semisupervisado es una forma de aprendizaje automático que implica conjuntos de datos de entrenamiento etiquetados y sin etiquetar. Como se infiere por su nombre, este método incorpora elementos tanto de aprendizaje supervisado como de aprendizaje no supervisado. El aprendizaje semisupervisado utiliza un proceso de dos pasos. En primer lugar, el algoritmo de un proyecto se entrena inicialmente utilizando un conjunto de datos etiquetados, como en el aprendizaje supervisado. Después de eso, el algoritmo avanza entrenando con un juego de datos sin etiquetas.

El aprendizaje semisupervisado es ideal cuando los proyectos tienen una gran cantidad de datos de entrenamiento, pero la mayoría o todo está sin etiquetar. En el caso de proyectos con solo datos sin etiquetar disponibles, el aprendizaje semisupervisado puede poner en marcha los proyectos realizando la formación inicial con datos etiquetados manualmente antes de cambiar a datos de formación sin etiquetar únicamente. Con los proyectos que utilizan este enfoque, los equipos deben tener cuidado al etiquetar manualmente los datos porque se convierten en la base sobre la que se construye el resto del proyecto.

La decisión de utilizar el aprendizaje semisupervisado a menudo se reduce a los conjuntos de datos disponibles. En la era del big data, los datos sin etiquetar están mucho más disponibles y accesibles que los datos etiquetados, y dependiendo de la fuente, costará menos obtenerlos.

Aún así, un proyecto puede tener que seguir adelante solo con datos sin etiquetar. Cuando esto sucede, los equipos deben decidir si es útil emplear la naturaleza exploratoria del aprendizaje no supervisado en lugar de gastar el tiempo y el dinero para etiquetar parte del conjunto de datos como un medio de entrenamiento inicial de algoritmos.

¿Qué es el aprendizaje semisupervisado?

El aprendizaje semisupervisado es una técnica de aprendizaje automático que se encuentra entre el aprendizaje supervisado y el aprendizaje no supervisado. Utiliza datos etiquetados y no etiquetados para entrenar algoritmos y puede ofrecer mejores resultados que el uso de datos etiquetados solo.

Para decidir si el aprendizaje semisupervisado es apropiado para un proyecto, los equipos deben preguntarse cosas como la siguiente:

  • ¿Qué conjuntos de datos tenemos disponibles para este proyecto?
  • ¿Alguno de estos conjuntos de datos está etiquetado? Un ejemplo de etiquetas para un conjunto de datos financieros pueden ser de transacciones con etiquetas que indican si una transacción es fraudulenta o legítima.
  • Si todos los conjuntos de datos no están etiquetados, ¿tiene el equipo los recursos para etiquetar al menos algunos de ellos?
  • ¿Los objetivos del proyecto son más viables gracias al aprendizaje supervisado o no supervisado? Los factores que se deben considerar aquí incluyen una combinación de aspectos prácticos y técnicos, incluidos los recursos informáticos, el presupuesto, los plazos y los resultados deseados.
  • ¿Es nuestro conjunto de datos etiquetados suficiente para enseñar al modelo los patrones y características de, por ejemplo, las transacciones fraudulentas y legítimas?

Las respuestas a estas preguntas determinarán la viabilidad. Una vez que se toma la decisión de utilizar el aprendizaje semisupervisado, el siguiente paso es preparar dos conjuntos de datos de entrenamiento. El primero es generalmente un pequeño conjunto de datos etiquetados para anclar la capacitación fundamental del proyecto. El segundo conjunto de datos de entrenamiento es más grande (a menudo mucho más grande) y no está etiquetado. Cuando el sistema procesa el conjunto de datos no etiquetados, genera pseudoetiquetas utilizando lo aprendido del conjunto con etiquetas. A continuación, este proceso itera para acotar el algoritmo y optimizar el rendimiento.

Los tipos más comunes de aprendizaje semisupervisado son:

  • Autoentrenamiento: con el autoentrenamiento, el proceso utiliza el conjunto de datos etiquetados para entrenar el algoritmo y, a continuación, el entrenamiento posterior genera pseudoetiquetas de alta confianza (más del 99 % de probabilidad) para el conjunto de datos no etiquetados de modo que todos los registros tengan etiquetas. A continuación, el sistema se entrena en el conjunto de datos ampliado con los datos de entrenamiento etiquetados originales concatenados con el conjunto de datos sin etiquetar utilizando pseudoetiquetas, lo que facilita un entrenamiento basado en mayores volúmenes de datos en comparación con el conjunto de datos etiquetado original.
  • Co-entrenamiento: con el co-entrenamiento, el proceso toma un pequeño conjunto de datos etiquetados y lo aborda con dos vistas distintas (grupos de funciones) que se centran en la información complementaria e independiente. Cada grupo entrena un algoritmo independiente y, a continuación, realiza predicciones sobre un conjunto de datos o etiquetados de cara a clasificar las pseudoetiquetas para cada modelo resultante. Cada pseudoetiqueta generada por un clasificador (un algoritmo que predice una etiqueta) viene con una puntuación de probabilidad, y la pseudoetiqueta con la puntuación de probabilidad más alta se agrega al otro juego de datos de entrenamiento.

Por ejemplo, un modelo de previsión meteorológica puede comenzar con un conjunto de datos que utilice etiquetas en métricas registradas, como la velocidad del viento, la presión atmosférica y la humedad, mientras que el otro modelo utiliza datos más generalizados, como la ubicación geográfica, la fecha y hora, y la precipitación media registrada. Ambos modelos generan pseudoetiquetas, y cuando el modelo de métricas tiene una puntuación de probabilidad más alta que el modelo general, esa pseudoetiqueta se aplica al modelo general y viceversa.

Cada método continúa entrenando para ajustar áreas con resultados de baja probabilidad hasta que se produzca un modelo final exhaustivo.

Ventajas y desventajas del aprendizaje semisupervisado

Pros Contras
Menos caro. Al aprovechar los datos sin etiquetar, el aprendizaje semisupervisado reduce la necesidad de un amplio etiquetado manual de datos, lo que ahorra tiempo y dinero. Sensible a la calidad de los datos etiquetados. La precisión y relevancia de los datos etiquetados afecta significativamente al rendimiento del modelo, por lo que se debe asignar cuidado y dinero para garantizar el etiquetado de calidad.
Mejora del rendimiento del modelo. En muchos casos, los modelos de aprendizaje semisupervisados pueden mejorar la precisión frente a los modelos entrenados solo en datos etiquetados, especialmente cuando los datos etiquetados son escasos. No adecuados para conjuntos de datos complejos y diversos. El modelo podría tener dificultades para encontrar relaciones significativas entre los datos etiquetados y los no etiquetados si la estructura subyacente es demasiado compleja.
Eficaz para datos no estructurados. El aprendizaje semisupervisado es particularmente adecuado para tareas como la categorización de texto, video o audio, donde los datos sin etiquetar a menudo son abundantes. Transparencia limitada. Comprender cómo un modelo de aprendizaje semisupervisado llega a sus predicciones y comprobar la precisión puede ser más difícil en comparación con el aprendizaje supervisado.

El aprendizaje automático semisupervisado combina la estructura de lanzamiento de un proyecto utilizando el aprendizaje supervisado con los beneficios del aprendizaje no supervisado, como la detección avanzada de anomalías y la capacidad de descubrir patrones y estructuras ocultas dentro de los datos sin etiquetar. Si bien no es adecuado para todas las situaciones, su flexibilidad inherente la convierte en una opción factible para un amplio espectro de necesidades y objetivos del proyecto.

Las empresas que luchan por desarrollar una estrategia de IA pueden encontrar que el establecimiento de un centro de excelencia los coloca en un camino hacia el éxito sostenible. Descubre por qué y obtén una hoja de ruta para crear tu Centro de Excelencia ahora.

Preguntas frecuentes sobre aprendizaje semisupervisado

¿En qué situaciones se suele utilizar el aprendizaje semisupervisado?

El aprendizaje semisupervisado funciona mejor cuando los proyectos tienen acceso solo o en su mayoría a datos sin etiquetar. En esas circunstancias, los equipos pueden etiquetar manualmente un subconjunto de datos para crear el juego de datos de entrenamiento para el primer paso y, a continuación, permitir que el modelo explore el conjunto de datos sin etiquetar.

¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?

El aprendizaje no supervisado permite a los modelos explorar conjuntos de datos sin etiquetar con el objetivo de descubrir patrones y relaciones entre inputs y outputs por sí solos. El aprendizaje semisupervisado utiliza este método, pero con un paso precursor de entrenamiento del algoritmo en un pequeño conjunto de datos etiquetados para construir una dirección fundamental para el proyecto.

¿Cuáles son algunos pros y contras del aprendizaje semisupervisado?

Los pros del aprendizaje semisupervisado incluyen:

  • Utiliza juegos de datos con etiquetas y sin etiquetas.
  • Hay mejores capacidades para los datos no estructurados, como grandes volúmenes de texto, video o audio.
  • Utiliza conjuntos de datos no etiquetados más accesibles y menos costosos.
  • Rendimiento mejorado del modelo, especialmente con datos limitados.

Entre las desventajas del aprendizaje semisupervisado se incluyen la siguientes:

  • Es posible que se necesite tiempo y dinero para etiquetar manualmente un juego de datos de entrenamiento.
  • Existe una menor precisión y transparencia en comparación con el aprendizaje supervisado con conjuntos de datos etiquetados de calidad.
  • No es adecuado para algunos tipos de proyectos, como aquellos con directrices estrictas o que requieren altos estándares de precisión para la seguridad.
  • No es adecuado para conjuntos de datos complejos y diversos.