Jeffrey Erickson | Escritor sénior | 2 de febrero de 2025
A medida que la IA se vuelve más útil para las empresas y los agentes de IA en particular asumen flujos de trabajo más complejos, el ajuste de la IA será una parte importante de la historia. Esos agentes pueden responder preguntas sobre datos y realizar acciones en nuestro nombre: escribir código, gestionar calendarios, presentar insights analíticos y mucho más. En el camino, los modelos de IA tendrán que trabajar juntos para investigar los almacenes de datos y documentos, recopilar información, verificar su precisión, desencadenar las acciones correctas y comunicarlas. Los sofisticados modelos de IA involucrados conocerán profundamente los patrones generales de lenguaje, pero también necesitarán ser optimizados para dominios específicos con su propio lenguaje, base de conocimientos y más. ¿Cómo puede el proceso de ajuste fino ayudar a un modelo de IA y a los futuros agentes de IA a obtener los matices y los detalles correctos? A continuación, analizaremos aspectos del ajuste fino del modelo de IA.
El ajuste fino del modelo de IA es el proceso que utilizan los científicos de datos y los ingenieros de aprendizaje automático (ML) para adaptar un modelo de ML entrenado para mejorar su rendimiento en una tarea específica. Por ejemplo, el ajuste fino se puede utilizar para tomar un modelo de lenguaje grande (LLM) de propósito general, como Command de Cohere o Llama 2 de Meta, y adaptarlo más a un entorno de atención médica o un rol de servicio al cliente.
Esos modelos de propósito general, a veces llamados "modelos de base", se entrenan en conjuntos de datos grandes y generales, como datos de casi toda la Internet abierta. Esto les ayuda a aprender y comprender una amplia gama de características y patrones. Algunos tienen un buen manejo del lenguaje; otros pueden reconocer y manipular datos multimodales, como imágenes, video y audio, así como texto.
El ajuste fino toma este modelo sofisticado y continúa su entrenamiento con un conjunto de datos más pequeño extraído de una tarea o dominio de negocio específico. Esto le da al modelo una comprensión de la taxonomía, el contexto e incluso el conocimiento especializado en ese campo.
La idea es mantener el vasto conocimiento del régimen de entrenamiento original del modelo al tiempo que le brinda una mejor comprensión de los matices y detalles del dominio en el que funcionará el modelo de IA. Por ejemplo, un modelo de IA de propósito general se puede someter a un ajuste fino para leer y discutir imágenes médicas, o un chatbot impulsado por LLM que se ha vuelto más fluido en los dialectos locales se puede adaptar para mejorar su papel en el servicio al cliente. La carrera por construir agentes de IA de alta capacidad en una amplia gama de dominios a menudo dependerá de modelos ajustados. A continuación, analizamos de forma más profunda los métodos y la mecánica de ajuste fino.
Conclusiones clave
Un desafío principal al que se enfrentan los equipos al realizar el ajuste fino de la IA es la disponibilidad de datos etiquetados de alta calidad relevantes para sus casos de uso: adquirir o crear dichos datos puede ser costoso y llevar mucho tiempo. Por ejemplo, etiquetar datos puede significar horas de señalar áreas en imágenes que una IA debe aprender a reconocer o etiquetar secciones de texto para resaltar información clave. Sin embargo, el ajuste fino ofrece ventajas de peso que lo convierten en una técnica crucial de cara al desarrollo moderno de IA. Veamos algunos pros y contras.
El ajuste fino de IA funciona mediante el uso de modelos existentes como puntos de partida. Estos modelos básicos, como Llama 2 de Meta o Command de Cohere, suelen estar disponibles en los proveedores de nube. Muchas organizaciones llevarán otros modelos a sus plataformas de ciencia de datos desde repositorios centralizados, como Hugging Face, TensorFlow Hub y PyTorch Hub, que alojan modelos de aprendizaje automático previamente entrenados.
Empezar con un modelo previamente entrenado
Elige un modelo que sea adecuado para tu tarea, tanto para clasificar texto, analizar sentimientos, responder preguntas, escribir artículos, generar código y detectar objetos, como para cualquier otro trabajo que requiera inteligencia artificial o aprendizaje automático.
Para ajustar un modelo de IA se necesitan tres ingredientes básicos: una recopilación de datos con el formato adecuado, el modelo básico apropiado y una infraestructura que proporcione las redes neuronales para el aprendizaje profundo y las GPU para impulsar el régimen de entrenamiento. Estos recursos a menudo se ensamblan en una plataforma de ciencia de datos o, más recientemente, en un servicio en la nube de IA generativa.
Como suele suceder con la tecnología, el proceso de ajuste de la IA se ha vuelto más fácil con el tiempo, gracias a las nuevas herramientas y servicios de infraestructura de proyectos de código abierto y equipos de desarrollo de proveedores de nube. Estas herramientas y servicios están ayudando a automatizar el ajuste, incluidas tareas complejas que analizaremos más adelante, como la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esto hace que el proceso sea más accesible para los no expertos.
De hecho, los observadores de la industria han señalado que las herramientas se han vuelto tan buenas en la abstracción de los detalles de la ciencia de datos de ajuste fino que la tarea más complicada ahora es recopilar y formatear el mejor conjunto de datos posible. Aquí también se dispone de bibliotecas de datos listas para varios dominios, como atención médica y finanzas, y capacidades, como visión artificial, análisis de sentimientos o detección de anomalías. De hecho, una tendencia cada vez más popular es utilizar un modelo para tu caso de uso que ya se haya ajustado para la tarea utilizando las mencionadas bibliotecas. A partir de ahí, la organización podría ajustar aún más el uso de un conjunto de datos más pequeño y, tal vez, utilizar una generación aumentada por recuperación, o RAG, arquitectura para mejorar aún más los resultados de IA.
Las empresas han encontrado formas de complementar los métodos tradicionales de ajuste con una técnica llamada aprendizaje de refuerzo. Esto permite que los modelos de IA aprendan a través de la prueba y el error y la mejora automática en lugar de utilizar un proceso separado de etiquetado de conjuntos de datos y ajuste fino supervisado.
Cómo ajustar un modelo de IA en cuatro pasos
1. Utilizar un modelo previamente entrenado: el primer paso es seleccionar un modelo base que sea adecuado para la tarea. Existen modelos populares para el procesamiento del lenguaje natural, la visión artificial, la generación de texto y otras áreas.
2. Agregar nuevos datos: a continuación, recopila y prepara un conjunto de datos específico de la tarea. Estos podrían incluir opiniones de clientes etiquetadas o preguntas y respuestas de ejemplo en el ámbito que debería abordar tu modelo.
3. Ajustar: el tercer paso consiste en ajustar el modelo según sea necesario. Los ajustes pueden incluir congelar capas para preservar el aprendizaje previo del modelo; ajustar la tasa de aprendizaje, lo que también puede ayudar a preservar el conocimiento existente del modelo; y agregar capas donde se aprenden tareas completamente nuevas, como una capa de clasificación para una clasificación de texto o una capa de regresión para predicciones.
4. Entrenar el modelo: este proceso implica alimentar los nuevos datos a través del modelo y actualizar los parámetros del modelo. El objetivo es maximizar el rendimiento del modelo de tu tarea mientras mantienes el conocimiento general de su entrenamiento inicial.
Para ajustar un modelo, existe una amplia gama de técnicas disponibles entre las que elegir. La primera decisión es si necesitas realizar un ajuste fino completo o selectivo.
El ajuste completo es un proceso en el que todas las capas y parámetros de un modelo fundamental se actualizan durante el proceso de entrenamiento. Esta es una buena opción cuando tienes un conjunto de datos grande y diverso que puede actualizar adecuadamente los parámetros del modelo sin peligro de incurrir en sobreajustes.
El ajuste fino selectivo implica actualizar solo un subconjunto de las capas o parámetros del modelo mediante un conjunto de datos más pequeño. Este método es bueno para preservar el conocimiento general del modelo básico y reducir el tiempo y el costo de computación del régimen de entrenamiento. Aquí se incluye una serie de ejemplos de técnicas para el ajuste fino selectivo.
En algunos casos de uso, tiene sentido que diseñes y entrenes tu modelo de IA desde cero. Sin embargo, en la mayoría de los casos, una organización puede obtener el resultado deseado ajustando un modelo básico.
Entrenar un modelo de IA desde cero puede ser la mejor opción en algunos casos. Un ejemplo sería cuando el dominio en el que estás trabajando resulte muy exigente, como una aplicación médica específica con datos de imagen quizás muy concretos. El entrenamiento desde cero requiere que ensambles un gran conjunto de datos y ejecutes largas rondas de entrenamiento en infraestructura específica de IA. Esto puede ser costoso, ya que puede requerir miles de GPU y millones de dólares. También es una tarea en la que se necesitará la experiencia de los científicos de datos e ingenieros de aprendizaje automático.
Ajustar un modelo de IA, por otro lado, implica tomar un modelo básico y adaptarlo a una tarea específica utilizando un conjunto de datos más pequeño y específico de la tarea. Este proceso es a menudo más rápido y eficiente porque el modelo comienza con una base sólida en el lenguaje y el conocimiento general y solo necesita adaptarse a los matices de la nueva tarea. Esto puede mejorar el rendimiento del modelo de IA para sus necesidades con menos trabajo ensamblando y preparando datos y muchas menos rondas de entrenamiento en lugar de entrenamiento desde cero. Obtén más información sobre los beneficios del ajuste a continuación.
Una amplia gama de empresas de todas las industrias, desde startups hasta corporaciones multinacionales, están ajustando modelos preentrenados. De hecho, se está convirtiendo en una práctica estándar para cualquier organización que busque utilizar la IA porque les permite implementar sistemas adaptados a sus necesidades específicas sin la inversión masiva requerida para el entrenamiento de modelos a gran escala. A continuación se incluyen algunos ejemplos de casos de uso.
Las organizaciones que trabajan en finanzas, logística, atención médica y muchos otros dominios están llevando la IA generativa ajustada a sus operaciones diarias. Estas historias del mundo real te ayudarán a descubrir una amplia gama de casos de uso en vivo. A continuación presentamos tres ejemplos específicos:
El ajuste fino de la IA está evolucionando rápidamente, especialmente a medida que más agentes de IA dependen de modelos ajustados. El futuro promete más automatización, nuevas técnicas y una gama más amplia de opciones de modelos que pueden ayudar a las organizaciones a adaptar los modelos de IA a sus necesidades.
Estas innovaciones incluyen servicios de aprendizaje automático mejorados que automatizan el ajuste, incluida la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esperamos que las técnicas de aumento de datos sensibles al contexto ayuden al modelo a aprender más funciones relevantes más rápidamente, y el aprendizaje dinámico permitirá que el modelo ajuste su ritmo de aprendizaje sobre la marcha. Y busca creadores de modelos básicos y de aprendizaje automático para seguir lanzando modelos más versátiles y potentes que puedan transferir conocimientos a través de diferentes modalidades y se puedan ajustar para realizar tareas que requieran la comprensión de varios tipos de datos. El truco será crear una infraestructura de datos que sea lo suficientemente versátil como para aprovechar estas nuevas innovaciones cuando lleguen.
¿Sabías que Oracle Cloud Infrastructure (OCI) te da acceso a lo que necesitas para ajustar el aprendizaje automático y los modelos básicos? Oracle proporciona infraestructura física, infraestructura de procesamiento de datos, plataforma de ciencia de datos y servicios de IA generativa en servicios totalmente gestionados. El servicio de IA generativa de OCI, por ejemplo, ofrece una integración sencilla y perfecta con LLM versátiles en un servicio fácil de usar. Utilízalo para ajustar modelos para una amplia gama de casos de uso, incluida asistencia para la escritura, resumen, análisis y chat.
Mientras tanto, tus científicos de datos e ingenieros de aprendizaje automático pueden aprovechar la plataforma de ciencia de datos de Oracle para colaborar en la creación, formación e implementación de modelos de aprendizaje automático mediante herramientas de Python y código abierto. Un entorno basado en JupyterLab proporciona todos los recursos necesarios para experimentar, desarrollar modelos y escalar verticalmente el entrenamiento de modelos con GPU NVIDIA y entrenamiento distribuido. Incluye modelos en la fase de producción y mantenlos en condiciones adecuadas con capacidades de operaciones de aprendizaje automático (MLOps), como pipelines automatizados, implementación de modelos y control de modelos.
Ajustar un modelo de IA es solo una forma de aprovechar esta tecnología para adelantar a la competencia. Descubre otras formas que pueden ayudar a beneficiar a las empresas.
¿En qué se diferencia el ajuste fino de otros tipos de entrenamiento de modelos?
Los modelos de IA de ajuste fino y el entrenamiento de modelos de IA desde cero son dos cosas distintas. Es el proceso de agregar rondas de entrenamiento a un modelo básico sofisticado, lo que permite obtener resultados más relevantes para el contexto en una tarea específica. El ajuste fino a menudo requiere menos datos y tiempo y resulta más económico que crear y entrenar un modelo desde cero.
¿Se puede utilizar el ajuste fino con cualquier tipo de modelo?
El ajuste fino de IA se puede utilizar con modelos básicos en una amplia gama de casos de uso, ya sea reconocimiento de imágenes, clasificación de texto, generación de idiomas, salidas de audio u otras salidas.