Jeffrey Erickson | Escritor Senior | 25 de febrero de 2025
A medida que la IA se vuelve más útil para las empresas y los agentes de IA en particular asumen flujos de trabajo más complejos, el ajuste de la IA será una parte importante de la historia. Esos agentes pueden responder preguntas sobre datos y realizar acciones en nuestro nombre: escribir código, gestionar calendarios, presentar estadísticas analíticas y mucho más. En el camino, los modelos de IA tendrán que trabajar juntos para investigar los almacenes de datos y documentos, recopilar información, verificar su precisión, desencadenar las acciones correctas y comunicarlas. Los sofisticados modelos de IA involucrados estarán bien versados en patrones generales de lenguaje, pero también necesitarán ser optimizados para dominios específicos con su propio lenguaje, base de conocimientos y más. ¿Cómo puede el proceso de ajuste ayudar a un modelo de IA y a los futuros agentes de IA a obtener los matices y los detalles correctamente? A continuación, exploraremos aspectos del ajuste del modelo de IA.
El ajuste fino de un modelo de IA es el proceso que utilizan los científicos de datos y los ingenieros de aprendizaje automático (ML) para adaptar un modelo entrenado para disfrutar de un mejor rendimiento en una tarea específica. El ajuste, por ejemplo, se puede utilizar para tomar un modelo de lenguaje grande (LLM) de propósito general, como el comando de Cohere o la llama 2 de Meta, y hacerlo más familiar en un entorno de atención médica o un rol de servicio al cliente.
Esos modelos de propósito general, a veces llamados "modelos de base", se entrenan en conjuntos de datos grandes y generales, como datos de casi toda la Internet abierta. Esto les ayuda a aprender y comprender una amplia gama de características y patrones. Algunos tienen un buen manejo del lenguaje; otros pueden reconocer y manipular datos multimodales, como imágenes, video y audio, así como texto.
El ajuste toma este modelo sofisticado y continúa su entrenamiento en un conjunto de datos más pequeño extraído de una tarea o dominio de negocio específico. Esto le da al modelo una comprensión de la taxonomía, el contexto e incluso el conocimiento especializado en ese campo.
La idea es mantener el vasto conocimiento del régimen de entrenamiento original del modelo al tiempo que le brinda una mejor comprensión de los matices y detalles del dominio en el que funcionará el modelo de IA. Por ejemplo, un modelo de IA de propósito general se puede ajustar para leer y discutir imágenes médicas, o un chatbot impulsado por LLM que se ha vuelto más fluido en los dialectos locales se puede ajustar para mejorar su papel en el servicio al cliente. La carrera por construir agentes de IA de alta capacidad en una amplia gama de dominios a menudo dependerá de modelos ajustados. Aquí hay una discusión más profunda de los métodos y la mecánica de ajuste.
Conclusiones clave
Un desafío principal al que se enfrentan los equipos al realizar el ajuste de la IA es la disponibilidad de datos etiquetados de alta calidad relevantes para sus casos de uso: adquirir o crear dichos datos puede ser costoso y llevar mucho tiempo. Por ejemplo, etiquetar datos puede significar horas de señalar áreas en imágenes que una IA debe aprender a reconocer o etiquetar secciones de texto para resaltar información clave. Sin embargo, el ajuste fino ofrece ventajas convincentes que lo convierten en una técnica crucial en el desarrollo moderno de IA. Veamos algunos pros y contras.
El ajuste de IA funciona mediante el uso de modelos existentes como puntos de partida. Estos modelos básicos, como Llama 2 de Meta o Comando de Cohere, suelen estar disponibles en los proveedores de nube. Muchas organizaciones llevarán otros modelos a sus plataformas de ciencia de datos desde repositorios centralizados, como Hugging Face, TensorFlow Hub y PyTorch Hub, que alojan modelos de aprendizaje automático previamente entrenados.
Empezar con un modelo previamente entrenado
Elige un modelo que sea adecuado para tu tarea, ya sea clasificar texto, analizar sentimientos, responder preguntas, escribir artículos, generar código, detectar objetos o cualquier otro trabajo que requiera inteligencia artificial o aprendizaje automático.
Para ajustar un modelo de IA se necesitan tres ingredientes básicos: una recopilación de datos con el formato adecuado, el modelo básico adecuado y una infraestructura que proporcione las redes neuronales para el aprendizaje profundo y las GPU para impulsar el régimen de entrenamiento. Estos recursos a menudo se ensamblan en una plataforma de ciencia de datos o, más recientemente, en un servicio en la nube de IA generativa.
Como suele suceder con la tecnología, el proceso de ajuste de la IA se ha vuelto más fácil con el tiempo, gracias a las nuevas herramientas y servicios de infraestructura de proyectos de código abierto y equipos de desarrollo de proveedores de nube. Estas herramientas y servicios están ayudando a automatizar el ajuste, incluidas las tareas complejas que analizaremos, como la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esto hace que el proceso sea más accesible para los no expertos.
De hecho, los observadores de la industria han señalado que las herramientas se han vuelto tan buenas en la abstracción de la minucia de la ciencia de datos de ajuste que la parte más difícil ahora es recopilar y formatear el mejor conjunto de datos posible. Aquí también hay bibliotecas de datos listas para varios dominios, como atención médica y finanzas, y capacidades, como visión informática, análisis de sentimientos o detección de anomalías. De hecho, una tendencia creciente es utilizar un modelo para su caso de uso que ya se ha ajustado para esa tarea utilizando estas bibliotecas. A partir de ahí, la organización podría ajustar aún más el uso de un conjunto de datos más pequeño y, tal vez, utilizar una generación aumentada de recuperación, o RAG, arquitectura para mejorar aún más los resultados de IA.
Las empresas han encontrado formas de complementar los métodos tradicionales de ajuste con una técnica llamada aprendizaje de refuerzo. Esto permite que los modelos de IA aprendan a través de la prueba y el error y la mejora automática en lugar de utilizar un proceso separado de etiquetado de conjuntos de datos y ajuste supervisado.
Cómo ajustar un modelo de IA en cuatro pasos
1. Utilizar un modelo previamente entrenado: el primer paso es seleccionar un modelo base que sea adecuado para la tarea. Existen modelos populares para el procesamiento del lenguaje natural, la visión por computadora, la generación de texto y otras áreas.
2. Agregar nuevos datos: a continuación, recopile y prepare un juego de datos específico de la tarea. Estos pueden consistir en revisiones de clientes etiquetadas o preguntas y respuestas de ejemplo en el dominio que su modelo debe abordar.
3. Ajustar: el tercer paso consiste en ajustar el modelo según sea necesario. Los ajustes pueden incluir congelar capas para preservar el aprendizaje previo del modelo; ajustar la tasa de aprendizaje, lo que también puede ayudar a preservar el conocimiento existente del modelo; y agregar capas donde se aprenden tareas completamente nuevas, como una capa de clasificación para una clasificación de texto o una capa de regresión para predicciones.
4. Entrenar el modelo: este proceso implica alimentar los nuevos datos a través del modelo y actualizar los parámetros del modelo. El objetivo es refinar el rendimiento del modelo de su tarea mientras mantiene el conocimiento general de su entrenamiento inicial.
Al ajustar un modelo, hay una gama de técnicas disponibles para elegir. La primera decisión es si necesita un ajuste completo o selectivo.
El ajuste completo es un proceso en el que todas las capas y parámetros de un modelo fundamental se actualizan durante el proceso de entrenamiento. Esta es una buena opción cuando tienes un conjunto de datos grande y diverso que puede actualizar adecuadamente los parámetros del modelo sin peligro de sobreajuste.
El ajuste selectivo implica actualizar solo un subjuego de las capas o parámetros del modelo mediante un juego de datos más pequeño. Este método es bueno para preservar el conocimiento general del modelo básico y reducir el tiempo y el costo de computación del régimen de entrenamiento. Aquí hay ejemplos de técnicas para el ajuste selectivo.
En algunos casos de uso, tiene sentido diseñar y entrenar su modelo de IA desde cero. Sin embargo, en la mayoría de los casos, una organización puede obtener el resultado deseado ajustando un modelo básico.
Entrenar un modelo de IA desde cero puede ser la mejor opción en algunos casos. Un ejemplo es cuando el dominio en el que está trabajando es muy exigente, como una aplicación médica de nicho con datos de imagen quizás muy específicos. El entrenamiento desde cero requiere que ensambles un gran conjunto de datos y ejecutes largas rondas de entrenamiento en infraestructura específica de IA. Esto puede ser costoso, ya que requiere hasta miles de GPU y millones de dólares. También es una tarea en la que se necesitará la experiencia de los científicos de datos e ingenieros de aprendizaje automático.
Ajustar un modelo de IA, por otro lado, implica tomar un modelo básico y adaptarlo a una tarea específica utilizando un conjunto de datos más pequeño y específico de la tarea. Este proceso es a menudo más rápido y eficiente porque el modelo comienza con una base sólida en el lenguaje y el conocimiento general y solo necesita adaptarse a los matices de la nueva tarea. Esto puede mejorar el rendimiento del modelo de IA para sus necesidades con menos trabajo ensamblando y preparando datos y muchas menos rondas de entrenamiento en lugar de entrenamiento desde cero. Vea más sobre los beneficios del ajuste a continuación.
Una amplia gama de empresas de todas las industrias, desde startups hasta corporaciones multinacionales, están ajustando modelos preentrenados. De hecho, se está convirtiendo en una práctica estándar para cualquier organización que busque utilizar la IA porque les permite implementar sistemas adaptados a sus necesidades específicas sin la inversión masiva requerida para el entrenamiento de modelos a gran escala. Estos son algunos ejemplos de casos de uso.
Las organizaciones que trabajan en finanzas, logística, atención médica y muchos otros dominios están llevando la IA generativa ajustada a sus operaciones diarias. Estas historias del mundo real le ayudarán a explorar una amplia gama de casos de uso en vivo. Aquí hay tres ejemplos específicos:
El ajuste de la IA está evolucionando rápidamente, especialmente a medida que más agentes de IA dependen de modelos ajustados. El futuro promete más automatización, nuevas técnicas y una gama más amplia de opciones de modelos que pueden ayudar a las organizaciones a adaptar los modelos de IA a sus necesidades.
Estas innovaciones incluyen servicios de aprendizaje automático mejorados que automatizan el ajuste, incluida la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esperamos que las técnicas de aumento de datos conscientes del contexto ayuden al modelo a aprender más funciones relevantes más rápidamente, y el aprendizaje dinámico permitirá a un modelo ajustar su tasa de aprendizaje sobre la marcha. Y busque creadores de modelos básicos y de aprendizaje automático para seguir lanzando modelos más versátiles y potentes que puedan transferir conocimientos a través de diferentes modalidades y se puedan ajustar para realizar tareas que requieran la comprensión de varios tipos de datos. El truco será crear una infraestructura de datos que sea lo suficientemente versátil como para aprovechar estas nuevas innovaciones cuando lleguen.
¿Sabías que Oracle Cloud Infrastructure (OCI) te da acceso a lo que necesitas para ajustar el aprendizaje automático y los modelos básicos? Oracle proporciona la infraestructura física, la infraestructura de procesamiento de datos, la plataforma de ciencia de datos y los servicios de IA generativa en servicios totalmente gestionados. El servicio de IA generativa de OCI, por ejemplo, ofrece una integración sencilla y perfecta con LLM versátiles en un servicio fácil de usar. Utilícelo para ajustar modelos para una amplia gama de casos de uso, incluida la asistencia para la escritura, el resumen, el análisis y el chat.
Mientras tanto, tus científicos de datos e ingenieros de aprendizaje automático pueden aprovechar la plataforma de ciencia de datos de Oracle para colaborar en la creación, formación y despliegue de modelos de aprendizaje automático mediante herramientas de Python y código abierto. Un entorno basado en JupyterLab proporciona todos los recursos necesarios para experimentar, desarrollar modelos y escalar verticalmente el entrenamiento de modelos con GPU NVIDIA y entrenamiento distribuido. Incluye modelos en la fase de producción y mantenlos en condiciones óptimas con prestaciones de operaciones del aprendizaje automático, como pipelines automatizados, implementaciones de modelo y supervisión de modelo.
Ajustar un modelo de IA es solo una forma de aprovechar esta tecnología para dar un salto a la competencia. Vea más formas en que las empresas pueden beneficiarse.
¿En qué se diferencia el ajuste de otros tipos de entrenamiento de modelos?
Los modelos de IA de ajuste son diferentes del entrenamiento de modelos de IA desde cero. Es el proceso de agregar rondas de entrenamiento a un modelo básico sofisticado, lo que lleva a resultados más relevantes para el contexto en una tarea específica. El ajuste a menudo requiere menos datos y requiere menos tiempo y es menos costoso que crear y entrenar un modelo desde cero.
¿Se puede utilizar el ajuste con cualquier tipo de modelo?
El ajuste de IA se puede utilizar con modelos básicos en una amplia gama de casos de uso, ya sea reconocimiento de imágenes, clasificación de texto, generación de idiomas, salidas de audio u otras salidas.