Michael Chen | Estratega de contenido | 17 de julio de 2024
El aprendizaje supervisado es una forma de aprendizaje automático que utiliza conjuntos de datos etiquetados para entrenar algoritmos. Con el aprendizaje supervisado, los conjuntos de datos etiquetados permiten que el algoritmo determine las relaciones entre las entradas y las salidas. A medida que el algoritmo trabaja con sus datos de entrenamiento, identifica patrones que eventualmente pueden refinar modelos predictivos o informar decisiones durante flujos de trabajo automatizados. En esencia, los conjuntos de datos etiquetados actúan como ejemplos para que el algoritmo aprenda, como un estudiante en un aula estructurada.
El aprendizaje supervisado es la opción ideal para una variedad de misiones y circunstancias. Si un proyecto tiene un objetivo bien definido, el aprendizaje supervisado puede ayudar a los equipos a finalizar más rápido en comparación con el aprendizaje no supervisado, donde el algoritmo ingiere un conjunto de datos no etiquetado sin parámetros ni objetivos y determina patrones y relaciones en los datos por sí mismo. En el aprendizaje supervisado, los conjuntos de datos etiquetados actúan como puntos de referencia para el entrenamiento del algoritmo.
Además, en comparación con otras formas de aprendizaje automático, entrenar un algoritmo de aprendizaje supervisado tiene la ventaja de manejar cantidades conocidas, como características y resultados. Esto puede acelerar el proceso de revisión, ya que las métricas estándar permiten a los entrenadores obtener una comprensión tangible del estado actual de un proyecto.
Con el aprendizaje supervisado, las organizaciones pueden obtener varios beneficios. Al integrar la capacidad de procesar big data de manera eficiente, las organizaciones pueden identificar patrones e ideas mucho más rápido para tomar decisiones más oportunas. Además, los algoritmos de aprendizaje supervisado pueden impulsar los esfuerzos de automatización de tareas, lo que potencialmente mejora y acelera los flujos de trabajo. Por ejemplo, un algoritmo de aprendizaje automático en una operación de manufactura podría entrenarse utilizando conjuntos de datos históricos para identificar ciclos de mantenimiento típicos para varias piezas de equipo. Luego, el sistema podría aplicar ese conocimiento a datos en tiempo real provenientes de sensores que rastrean el uso y rendimiento de una herramienta. El algoritmo podría entonces señalar signos de desgaste o advertir sobre el fin de vida útil de piezas críticas para que se ordenen reemplazos antes de que una falla detenga la línea de producción.
El aprendizaje supervisado comienza curando conjuntos de datos de entrenamiento etiquetados, con entradas y salidas claramente y consistentemente identificadas. El algoritmo procesa estos datos para aprender relaciones; ese aprendizaje conduce a un modelo matemático para predicción. El proceso de entrenamiento es iterativo y se repite para refinar el algoritmo hasta que el modelo alcanza el nivel de precisión deseado. En ese punto, se pueden utilizar diferentes conjuntos de datos para evaluar y confirmar que el modelo está listo para trabajar con datos en vivo.
Los algoritmos de aprendizaje supervisado generalmente se dividen en una de dos categorías.
Clasificación: los algoritmos de clasificación toman datos y colocan las entradas en categorías de salida. Por ejemplo, un algoritmo financiero para la detección de fraudes analizará el historial de compras de un cliente con tarjeta de crédito y usará esos datos para decidir si una nueva transacción probablemente es legítima o debería marcarse para una inspección adicional.
Regresión: los algoritmos de regresión utilizan conjuntos de datos de entrenamiento etiquetados para identificar una relación que se ajuste mejor entre entradas y salidas, de modo que se puedan hacer predicciones matemáticas para nuevas entradas. Por ejemplo, un algoritmo meteorológico puede procesar variables como la estación del año, tendencias recientes, patrones históricos y métricas ambientales actuales para generar una predicción.
Aunque el aprendizaje supervisado es un enfoque probado y eficaz de aprendizaje automático, presenta varios desafíos. Los equipos deben revisar los siguientes problemas antes de decidir si seguir adelante con el aprendizaje supervisado.
Selección del modelo: los algoritmos de aprendizaje supervisado varían en complejidad y en la cantidad de recursos que requieren. Por ejemplo, un árbol de decisión —básicamente un diagrama de flujo de puntos de decisión y resultados posibles— puede funcionar con pocos recursos, pero carece de capacidades para lograr una precisión estricta en áreas complejas. Por otro lado, una red neuronal profunda requerirá muchos más recursos tanto para el entrenamiento como para la producción, pero eventualmente podrá realizar predicciones precisas y mucho más. Encontrar el equilibrio adecuado es clave para un proyecto exitoso.
Calidad de los datos de entrenamiento: cualquier proyecto de aprendizaje automático requiere datos limpios de fuentes de calidad. Para los datos de entrenamiento supervisado, esto significa específicamente datos con etiquetas precisas y consistentes que sean compatibles con otras fuentes utilizadas para el entrenamiento. Si los conjuntos de datos de entrenamiento no están en formatos compatibles, se deben aplicar técnicas de integración y transformación de datos antes del entrenamiento, lo que añade tiempo y costos.
Comprensión de las limitaciones del proyecto: factores como el presupuesto, los recursos del entorno de entrenamiento y los plazos pueden crear restricciones prácticas que dictarán las realidades de un proyecto de aprendizaje automático. Dado que estas restricciones pueden afectar la selección de algoritmos, los equipos deben identificar parámetros antes de comenzar.
La conclusión es que el aprendizaje supervisado puede ser el enfoque de aprendizaje automático adecuado para proyectos donde se dispone de conjuntos de datos etiquetados. Más allá de eso, los equipos deben entender que el aprendizaje supervisado funciona mejor cuando el objetivo es obtener predicciones o decisiones precisas basadas en patrones identificados —piensa en la detección de fraudes o spam, donde el algoritmo puede entrenarse con ejemplos de resultados correctos e incorrectos. Finalmente, comprender los diferentes tipos de modelos de aprendizaje supervisado, como árboles de decisión y regresión lineal, permitirá determinar si este es el enfoque adecuado para un proyecto específico.
¿Qué caso de uso de IA es el más adecuado para el aprendizaje supervisado? Descúbrelo en este ebook.
¿Cuál es un ejemplo de un algoritmo de aprendizaje supervisado?
Un ejemplo de un algoritmo de aprendizaje supervisado es la creación de un modelo que predice la probabilidad de una condición médica basada en el historial de salud electrónico de un paciente. El modelo se entrena con un conjunto de datos etiquetado de pacientes, utilizando factores como síntomas, edad, resultados de pruebas, condiciones preexistentes y otros factores. Eso permite que el sistema ingrese los datos de un paciente e identifique qué, si algo, podría encajar con una condición médica no diagnosticada y sugerir una revisión más cercana.
¿Cuál es un ejemplo de aprendizaje no supervisado?
A diferencia del aprendizaje supervisado, los algoritmos de aprendizaje no supervisado se entrenan utilizando conjuntos de datos sin etiquetas. El objetivo del aprendizaje no supervisado es permitir que el algoritmo explore datos e identifique patrones por sí mismo. El modelo resultante luego puede aplicarse a datos entrantes. Un ejemplo de aprendizaje no supervisado es un modelo de segmentación de clientes, que puede analizar patrones en grandes conjuntos de datos de uso y historial de compras de clientes para agruparlos con fines de marketing.
¿Las redes neuronales convolucionales (CNN) son supervisadas o no supervisadas?
Una red neuronal convolucional (CNN) es una técnica de aprendizaje supervisado que se entrena en conjuntos de datos etiquetados para propósitos como análisis de imágenes o videos, además de aplicaciones con modelos similares como el procesamiento de lenguaje natural. Las CNN utilizan múltiples capas para separar tareas, como identificar características o aplicar clasificación, y optimizan los recursos computacionales.