Introducción al ajuste en el aprendizaje automático

Jeffrey Erickson | Escritor Senior | 25 de febrero de 2025

A medida que la IA se vuelve más útil para las empresas y los agentes de IA en particular asumen flujos de trabajo más complejos, el ajuste de la IA será una parte importante de la historia. Esos agentes pueden responder preguntas sobre datos y realizar acciones en nuestro nombre: escribir código, gestionar calendarios, presentar estadísticas analíticas y mucho más. En el camino, los modelos de IA tendrán que trabajar juntos para investigar los almacenes de datos y documentos, recopilar información, verificar su precisión, desencadenar las acciones correctas y comunicarlas. Los sofisticados modelos de IA involucrados estarán bien versados en patrones generales de lenguaje, pero también necesitarán ser optimizados para dominios específicos con su propio lenguaje, base de conocimientos y más. ¿Cómo puede el proceso de ajuste ayudar a un modelo de IA y a los futuros agentes de IA a obtener los matices y los detalles correctamente? A continuación, exploraremos aspectos del ajuste del modelo de IA.

¿Qué es el ajuste fino?

El ajuste fino de un modelo de IA es el proceso que utilizan los científicos de datos y los ingenieros de aprendizaje automático (ML) para adaptar un modelo entrenado para disfrutar de un mejor rendimiento en una tarea específica. El ajuste, por ejemplo, se puede utilizar para tomar un modelo de lenguaje grande (LLM) de propósito general, como el comando de Cohere o la llama 2 de Meta, y hacerlo más familiar en un entorno de atención médica o un rol de servicio al cliente.

Esos modelos de propósito general, a veces llamados "modelos de base", se entrenan en conjuntos de datos grandes y generales, como datos de casi toda la Internet abierta. Esto les ayuda a aprender y comprender una amplia gama de características y patrones. Algunos tienen un buen manejo del lenguaje; otros pueden reconocer y manipular datos multimodales, como imágenes, video y audio, así como texto.

El ajuste toma este modelo sofisticado y continúa su entrenamiento en un conjunto de datos más pequeño extraído de una tarea o dominio de negocio específico. Esto le da al modelo una comprensión de la taxonomía, el contexto e incluso el conocimiento especializado en ese campo.

La idea es mantener el vasto conocimiento del régimen de entrenamiento original del modelo al tiempo que le brinda una mejor comprensión de los matices y detalles del dominio en el que funcionará el modelo de IA. Por ejemplo, un modelo de IA de propósito general se puede ajustar para leer y discutir imágenes médicas, o un chatbot impulsado por LLM que se ha vuelto más fluido en los dialectos locales se puede ajustar para mejorar su papel en el servicio al cliente. La carrera por construir agentes de IA de alta capacidad en una amplia gama de dominios a menudo dependerá de modelos ajustados. Aquí hay una discusión más profunda de los métodos y la mecánica de ajuste.

Conclusiones clave

  • El ajuste de IA es el proceso de entrenamiento de un modelo de IA de propósito general para darle más contexto y conocimiento para una tarea específica, como el análisis de sentimientos, la generación de lenguaje, la detección de imágenes y muchas otras cargas de trabajo.
  • El ajuste es uno de los varios métodos para mejorar los resultados de un LLM para aplicaciones, incluidos los agentes de IA.
  • Se necesitan conjuntos de datos de entrenamiento mucho más pequeños para ajustar y entrenar un modelo de IA desde cero.
  • Después de ajustar, un modelo de IA puede ser más informado y preciso en un campo específico, como la medicina, la fabricación o el servicio al cliente.

Ventajas y desafíos del ajuste fino

Un desafío principal al que se enfrentan los equipos al realizar el ajuste de la IA es la disponibilidad de datos etiquetados de alta calidad relevantes para sus casos de uso: adquirir o crear dichos datos puede ser costoso y llevar mucho tiempo. Por ejemplo, etiquetar datos puede significar horas de señalar áreas en imágenes que una IA debe aprender a reconocer o etiquetar secciones de texto para resaltar información clave. Sin embargo, el ajuste fino ofrece ventajas convincentes que lo convierten en una técnica crucial en el desarrollo moderno de IA. Veamos algunos pros y contras.

Ventajas

  • Ahorra tiempo y dinero en comparación con entrenar un modelo de IA desde cero: ajustar un modelo básico ofrece varias ventajas, como una reducción considerable del tiempo de entrenamiento y menores costos computacionales, ya que los modelos básicos ya han tenido una amplia capacitación general y necesitan menos tiempo y recursos para adaptarse a una nueva tarea. Además, el ajuste puede ser efectivo incluso con conjuntos de datos más pequeños y específicos de la tarea, lo que puede reducir el tiempo y el costo asociados con la recopilación y el preprocesamiento de datos. La reducción del tiempo de entrenamiento y los requisitos computacionales del ajuste fino también pueden resultar en un menor consumo de energía, lo que reduce los costos.
  • Ofrece un mejor rendimiento para tareas específicas: los modelos básicos de ajuste pueden mejorar la precisión y acelerar la convergencia, siendo la convergencia el punto en el que la tasa de error de un modelo de aprendizaje automático se vuelve constante, lo que indica que no seguirá mejorando su precisión con más entrenamiento en el mismo conjunto de datos. Los modelos básicos se pueden adaptar rápidamente a los matices de una nueva tarea con menos datos y menos iteraciones de entrenamiento. Esta combinación de conocimiento general y aprendizaje específico de la tarea ayuda al modelo a funcionar bien cuando encuentra nuevos datos.

Desventajas

  • Sobreajuste: el sobreajuste ("overfitting") de la IA se produce cuando las rondas de entrenamiento sobre nuevos datos son demasiado completas y terminan sustituyendo capas que ayudan al modelo con conocimientos generales. Ese conocimiento general y la flexibilidad del lenguaje del modelo básico son fundamentales para ayudarlo a tener un buen rendimiento cuando se encuentra con nuevos datos. Con el sobreajuste, el modelo comienza a memorizar los datos de entrenamiento en lugar de aprender los patrones subyacentes que le permiten generalizarse para que pueda manejar nuevos ejemplos.
  • Costo: los recursos computacionales y la experiencia necesaria para ajustar los modelos de IA pueden ser costosos. El proceso se basa en GPU o TPU (unidades de procesamiento de tensor) de alto rendimiento, que pueden ser costosas de comprar o alquilar a un proveedor en la nube. También puede ser costoso contratar a los expertos necesarios en aprendizaje automático y procesamiento de lenguaje natural.
  • Tiempo: el ajuste puede llevar mucho tiempo en un par de formas. Primero hay tiempo para preparar los datos, que pueden incluir recopilación, limpieza, anotación y formato. Una vez que el proceso de ajuste está en marcha, el ajuste puede tardar horas, días o incluso semanas, dependiendo del tamaño y la complejidad de la tarea. Más tiempo se traduce en mayores costos de tiempo de computación.

Cómo funciona el ajuste fino

El ajuste de IA funciona mediante el uso de modelos existentes como puntos de partida. Estos modelos básicos, como Llama 2 de Meta o Comando de Cohere, suelen estar disponibles en los proveedores de nube. Muchas organizaciones llevarán otros modelos a sus plataformas de ciencia de datos desde repositorios centralizados, como Hugging Face, TensorFlow Hub y PyTorch Hub, que alojan modelos de aprendizaje automático previamente entrenados.

Empezar con un modelo previamente entrenado

Elige un modelo que sea adecuado para tu tarea, ya sea clasificar texto, analizar sentimientos, responder preguntas, escribir artículos, generar código, detectar objetos o cualquier otro trabajo que requiera inteligencia artificial o aprendizaje automático.

Para ajustar un modelo de IA se necesitan tres ingredientes básicos: una recopilación de datos con el formato adecuado, el modelo básico adecuado y una infraestructura que proporcione las redes neuronales para el aprendizaje profundo y las GPU para impulsar el régimen de entrenamiento. Estos recursos a menudo se ensamblan en una plataforma de ciencia de datos o, más recientemente, en un servicio en la nube de IA generativa.

Como suele suceder con la tecnología, el proceso de ajuste de la IA se ha vuelto más fácil con el tiempo, gracias a las nuevas herramientas y servicios de infraestructura de proyectos de código abierto y equipos de desarrollo de proveedores de nube. Estas herramientas y servicios están ayudando a automatizar el ajuste, incluidas las tareas complejas que analizaremos, como la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esto hace que el proceso sea más accesible para los no expertos.

De hecho, los observadores de la industria han señalado que las herramientas se han vuelto tan buenas en la abstracción de la minucia de la ciencia de datos de ajuste que la parte más difícil ahora es recopilar y formatear el mejor conjunto de datos posible. Aquí también hay bibliotecas de datos listas para varios dominios, como atención médica y finanzas, y capacidades, como visión informática, análisis de sentimientos o detección de anomalías. De hecho, una tendencia creciente es utilizar un modelo para su caso de uso que ya se ha ajustado para esa tarea utilizando estas bibliotecas. A partir de ahí, la organización podría ajustar aún más el uso de un conjunto de datos más pequeño y, tal vez, utilizar una generación aumentada de recuperación, o RAG, arquitectura para mejorar aún más los resultados de IA.

Las empresas han encontrado formas de complementar los métodos tradicionales de ajuste con una técnica llamada aprendizaje de refuerzo. Esto permite que los modelos de IA aprendan a través de la prueba y el error y la mejora automática en lugar de utilizar un proceso separado de etiquetado de conjuntos de datos y ajuste supervisado.

Cómo ajustar un modelo de IA en cuatro pasos

1. Utilizar un modelo previamente entrenado: el primer paso es seleccionar un modelo base que sea adecuado para la tarea. Existen modelos populares para el procesamiento del lenguaje natural, la visión por computadora, la generación de texto y otras áreas.

2. Agregar nuevos datos: a continuación, recopile y prepare un juego de datos específico de la tarea. Estos pueden consistir en revisiones de clientes etiquetadas o preguntas y respuestas de ejemplo en el dominio que su modelo debe abordar.

3. Ajustar: el tercer paso consiste en ajustar el modelo según sea necesario. Los ajustes pueden incluir congelar capas para preservar el aprendizaje previo del modelo; ajustar la tasa de aprendizaje, lo que también puede ayudar a preservar el conocimiento existente del modelo; y agregar capas donde se aprenden tareas completamente nuevas, como una capa de clasificación para una clasificación de texto o una capa de regresión para predicciones.

4. Entrenar el modelo: este proceso implica alimentar los nuevos datos a través del modelo y actualizar los parámetros del modelo. El objetivo es refinar el rendimiento del modelo de su tarea mientras mantiene el conocimiento general de su entrenamiento inicial.

Técnicas y métodos de ajuste fino

Al ajustar un modelo, hay una gama de técnicas disponibles para elegir. La primera decisión es si necesita un ajuste completo o selectivo.

Ajuste Completo

El ajuste completo es un proceso en el que todas las capas y parámetros de un modelo fundamental se actualizan durante el proceso de entrenamiento. Esta es una buena opción cuando tienes un conjunto de datos grande y diverso que puede actualizar adecuadamente los parámetros del modelo sin peligro de sobreajuste.

Ajuste selectivo

El ajuste selectivo implica actualizar solo un subjuego de las capas o parámetros del modelo mediante un juego de datos más pequeño. Este método es bueno para preservar el conocimiento general del modelo básico y reducir el tiempo y el costo de computación del régimen de entrenamiento. Aquí hay ejemplos de técnicas para el ajuste selectivo.

  • Aumento de datos: implica generar datos de entrenamiento adicionales a partir del juego de datos existente mediante la aplicación de transformaciones. Para las imágenes, las transformaciones pueden incluir rotación, escalado, recorte o adición de ruido. Esto puede mejorar el rendimiento de ajuste cuando un juego de datos específico de la tarea es pequeño.
  • Parada anticipada: esta técnica se utiliza para supervisar y detener el entrenamiento cuando el rendimiento de un juego de validación deja de mejorar. Esto ayuda con la eficiencia y puede ayudar a prevenir el sobreajuste.
  • Ensemble methods: este método combina varios modelos ajustados en un intento de reducir la variación en las salidas de los modelos.
  • Ajuste de capas específicas: esta técnica hace que el ajuste sea más eficiente ajustando solo las capas más superficiales de una red neuronal profunda mientras bloquea o congela capas más profundas.
  • Ajuste de hiperparámetros: incluye varias técnicas para ajustar las funciones de un proceso de ajuste, como la velocidad de aprendizaje o el tamaño de lote.
  • Congelación de capas: aquí se bloquean las capas del modelo básico que son responsables de la comprensión básica y universal. Esto ayuda a evitar el sobreajuste, donde el modelo ha memorizado esencialmente los datos de entrenamiento en lugar de aprender patrones generalizables que le permiten manejar correctamente nuevos datos.
  • Programación de la tasa de aprendizaje: una tasa de aprendizaje más lenta puede permitir ajustes más sutiles y precisos en los parámetros del modelo base. El proceso reduce gradualmente la tasa de aprendizaje, o el tamaño del paso, con el tiempo, ayudando al modelo a aprender nuevo material de manera más efectiva al tomar pasos más pequeños a medida que se acerca a la solución óptima.
  • Técnicas de normalización: se utilizan específicamente para evitar el sobreajuste.
  • Aprendizaje de transferencia: implica seguir entrenando un modelo básico en un juego de datos más pequeño que sea específico de una determinada tarea.

Ajuste fino frente a entrenamiento desde cero

En algunos casos de uso, tiene sentido diseñar y entrenar su modelo de IA desde cero. Sin embargo, en la mayoría de los casos, una organización puede obtener el resultado deseado ajustando un modelo básico.

Entrenar un modelo de IA desde cero puede ser la mejor opción en algunos casos. Un ejemplo es cuando el dominio en el que está trabajando es muy exigente, como una aplicación médica de nicho con datos de imagen quizás muy específicos. El entrenamiento desde cero requiere que ensambles un gran conjunto de datos y ejecutes largas rondas de entrenamiento en infraestructura específica de IA. Esto puede ser costoso, ya que requiere hasta miles de GPU y millones de dólares. También es una tarea en la que se necesitará la experiencia de los científicos de datos e ingenieros de aprendizaje automático.

Ajustar un modelo de IA, por otro lado, implica tomar un modelo básico y adaptarlo a una tarea específica utilizando un conjunto de datos más pequeño y específico de la tarea. Este proceso es a menudo más rápido y eficiente porque el modelo comienza con una base sólida en el lenguaje y el conocimiento general y solo necesita adaptarse a los matices de la nueva tarea. Esto puede mejorar el rendimiento del modelo de IA para sus necesidades con menos trabajo ensamblando y preparando datos y muchas menos rondas de entrenamiento en lugar de entrenamiento desde cero. Vea más sobre los beneficios del ajuste a continuación.

Casos de uso comunes para el ajuste fino

Una amplia gama de empresas de todas las industrias, desde startups hasta corporaciones multinacionales, están ajustando modelos preentrenados. De hecho, se está convirtiendo en una práctica estándar para cualquier organización que busque utilizar la IA porque les permite implementar sistemas adaptados a sus necesidades específicas sin la inversión masiva requerida para el entrenamiento de modelos a gran escala. Estos son algunos ejemplos de casos de uso.

Ejemplos del mundo real

Las organizaciones que trabajan en finanzas, logística, atención médica y muchos otros dominios están llevando la IA generativa ajustada a sus operaciones diarias. Estas historias del mundo real le ayudarán a explorar una amplia gama de casos de uso en vivo. Aquí hay tres ejemplos específicos:

  • Soporte al cliente: una empresa de soluciones de seguridad industrial implementó una herramienta impulsada por IA que inmediatamente mejoró sus operaciones de soporte al cliente. El equipo utiliza Cohere Command R+ LLM ajustado para procesar las consultas de los clientes y generar respuestas precisas.
  • Atención sanitaria: los investigadores universitarios están utilizando la IA para analizar más a fondo los datos de los pacientes y ayudar a diseñar nuevas terapias contra el cáncer. Están utilizando la infraestructura en la nube para alojar, ejecutar y ajustar los LLM a escala.
  • Sector de servicios: una empresa de IA aplicada en Brasil afina los LLM para ayudar con la terapia de reminiscencia, un tratamiento psicológico probado que ayuda a los pacientes que sufren de deterioro cognitivo.

Lo que sigue en el ajuste detallado

El ajuste de la IA está evolucionando rápidamente, especialmente a medida que más agentes de IA dependen de modelos ajustados. El futuro promete más automatización, nuevas técnicas y una gama más amplia de opciones de modelos que pueden ayudar a las organizaciones a adaptar los modelos de IA a sus necesidades.

Estas innovaciones incluyen servicios de aprendizaje automático mejorados que automatizan el ajuste, incluida la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esperamos que las técnicas de aumento de datos conscientes del contexto ayuden al modelo a aprender más funciones relevantes más rápidamente, y el aprendizaje dinámico permitirá a un modelo ajustar su tasa de aprendizaje sobre la marcha. Y busque creadores de modelos básicos y de aprendizaje automático para seguir lanzando modelos más versátiles y potentes que puedan transferir conocimientos a través de diferentes modalidades y se puedan ajustar para realizar tareas que requieran la comprensión de varios tipos de datos. El truco será crear una infraestructura de datos que sea lo suficientemente versátil como para aprovechar estas nuevas innovaciones cuando lleguen.

Mejora tus modelos de IA con soluciones de IA generativa

¿Sabías que Oracle Cloud Infrastructure (OCI) te da acceso a lo que necesitas para ajustar el aprendizaje automático y los modelos básicos? Oracle proporciona la infraestructura física, la infraestructura de procesamiento de datos, la plataforma de ciencia de datos y los servicios de IA generativa en servicios totalmente gestionados. El servicio de IA generativa de OCI, por ejemplo, ofrece una integración sencilla y perfecta con LLM versátiles en un servicio fácil de usar. Utilícelo para ajustar modelos para una amplia gama de casos de uso, incluida la asistencia para la escritura, el resumen, el análisis y el chat.

Mientras tanto, tus científicos de datos e ingenieros de aprendizaje automático pueden aprovechar la plataforma de ciencia de datos de Oracle para colaborar en la creación, formación y despliegue de modelos de aprendizaje automático mediante herramientas de Python y código abierto. Un entorno basado en JupyterLab proporciona todos los recursos necesarios para experimentar, desarrollar modelos y escalar verticalmente el entrenamiento de modelos con GPU NVIDIA y entrenamiento distribuido. Incluye modelos en la fase de producción y mantenlos en condiciones óptimas con prestaciones de operaciones del aprendizaje automático, como pipelines automatizados, implementaciones de modelo y supervisión de modelo.

Ajustar un modelo de IA es solo una forma de aprovechar esta tecnología para dar un salto a la competencia. Vea más formas en que las empresas pueden beneficiarse.

Preguntas frecuentes sobre el ajuste

¿En qué se diferencia el ajuste de otros tipos de entrenamiento de modelos?

Los modelos de IA de ajuste son diferentes del entrenamiento de modelos de IA desde cero. Es el proceso de agregar rondas de entrenamiento a un modelo básico sofisticado, lo que lleva a resultados más relevantes para el contexto en una tarea específica. El ajuste a menudo requiere menos datos y requiere menos tiempo y es menos costoso que crear y entrenar un modelo desde cero.

¿Se puede utilizar el ajuste con cualquier tipo de modelo?

El ajuste de IA se puede utilizar con modelos básicos en una amplia gama de casos de uso, ya sea reconocimiento de imágenes, clasificación de texto, generación de idiomas, salidas de audio u otras salidas.