AI model fine-tuning is the process that data scientists and machine learning (ML) engineers use to adapt a trained ML model to perform better at a specific task. Fine-tuning, for example, might be used to take a general-purpose large language model (LLM), such as Cohere’s Command or Meta’s Llama 2, and make it more conversant in a healthcare setting or a customer service role.

How is fine-tuning different from other types of model training?

Fine-tuning AI models is different from training AI models from scratch. It’s the process of adding rounds of training to a sophisticated foundation model, leading to more context-relevant outputs in a specific task. Fine-tuning often requires less data and is less time-consuming and costly than building and training a model from scratch.

Can fine-tuning be used with any type of model?

AI fine-tuning can be used with foundation models in a wide range of use cases, whether that’s image recognition, text classification, language generation, audio outputs, or other outputs.

Menú Comunicarse con nosotros Iniciar sesión en Oracle Cloud

Introducción al ajuste fino en el aprendizaje automático

Jeffrey Erickson | Escritor sénior | 2 de febrero de 2025

En este artículo

¿Qué es el ajuste fino?
Ventajas y desafíos del ajuste fino
Técnicas y métodos de ajuste fino
Ajuste fino frente a entrenamiento desde cero
Casos de uso comunes para el ajuste fino
Lo próximo en ajuste fino
Mejora tus modelos de IA con soluciones de IA generativa
Preguntas frecuentes sobre el ajuste fino

A medida que la IA se vuelve más útil para las empresas y los agentes de IA en particular asumen flujos de trabajo más complejos, el ajuste de la IA será una parte importante de la historia. Esos agentes pueden responder preguntas sobre datos y realizar acciones en nuestro nombre: escribir código, gestionar calendarios, presentar insights analíticos y mucho más. En el camino, los modelos de IA tendrán que trabajar juntos para investigar los almacenes de datos y documentos, recopilar información, verificar su precisión, desencadenar las acciones correctas y comunicarlas. Los sofisticados modelos de IA involucrados conocerán profundamente los patrones generales de lenguaje, pero también necesitarán ser optimizados para dominios específicos con su propio lenguaje, base de conocimientos y más. ¿Cómo puede el proceso de ajuste fino ayudar a un modelo de IA y a los futuros agentes de IA a obtener los matices y los detalles correctos? A continuación, analizaremos aspectos del ajuste fino del modelo de IA.

¿Qué es el ajuste fino?

El ajuste fino del modelo de IA es el proceso que utilizan los científicos de datos y los ingenieros de aprendizaje automático (ML) para adaptar un modelo de ML entrenado para mejorar su rendimiento en una tarea específica. Por ejemplo, el ajuste fino se puede utilizar para tomar un modelo de lenguaje grande (LLM) de propósito general, como Command de Cohere o Llama 2 de Meta, y adaptarlo más a un entorno de atención médica o un rol de servicio al cliente.

Esos modelos de propósito general, a veces llamados "modelos de base", se entrenan en conjuntos de datos grandes y generales, como datos de casi toda la Internet abierta. Esto les ayuda a aprender y comprender una amplia gama de características y patrones. Algunos tienen un buen manejo del lenguaje; otros pueden reconocer y manipular datos multimodales, como imágenes, video y audio, así como texto.

El ajuste fino toma este modelo sofisticado y continúa su entrenamiento con un conjunto de datos más pequeño extraído de una tarea o dominio de negocio específico. Esto le da al modelo una comprensión de la taxonomía, el contexto e incluso el conocimiento especializado en ese campo.

La idea es mantener el vasto conocimiento del régimen de entrenamiento original del modelo al tiempo que le brinda una mejor comprensión de los matices y detalles del dominio en el que funcionará el modelo de IA. Por ejemplo, un modelo de IA de propósito general se puede someter a un ajuste fino para leer y discutir imágenes médicas, o un chatbot impulsado por LLM que se ha vuelto más fluido en los dialectos locales se puede adaptar para mejorar su papel en el servicio al cliente. La carrera por construir agentes de IA de alta capacidad en una amplia gama de dominios a menudo dependerá de modelos ajustados. A continuación, analizamos de forma más profunda los métodos y la mecánica de ajuste fino.

Conclusiones clave

El ajuste fino de la IA es el proceso de entrenamiento de un modelo de IA de propósito general para darle más contexto y conocimientos para una tarea específica, como el análisis de sentimientos, la generación de lenguaje, la detección de imágenes y muchas otras cargas de trabajo.
El ajuste fino es uno de los diferentes métodos para mejorar los resultados de un LLM para aplicaciones, incluidos los agentes de IA.
Se necesitan conjuntos de datos de entrenamiento mucho más pequeños para ajustar y entrenar un modelo de IA desde cero.
Después del ajuste fino, un modelo de IA puede ser más informado y preciso en un campo específico, como la medicina, la fabricación o el servicio al cliente.

Ventajas y desafíos del ajuste fino

Un desafío principal al que se enfrentan los equipos al realizar el ajuste fino de la IA es la disponibilidad de datos etiquetados de alta calidad relevantes para sus casos de uso: adquirir o crear dichos datos puede ser costoso y llevar mucho tiempo. Por ejemplo, etiquetar datos puede significar horas de señalar áreas en imágenes que una IA debe aprender a reconocer o etiquetar secciones de texto para resaltar información clave. Sin embargo, el ajuste fino ofrece ventajas de peso que lo convierten en una técnica crucial de cara al desarrollo moderno de IA. Veamos algunos pros y contras.

Pros

Ahorra tiempo y dinero en comparación con entrenar un modelo de IA desde cero: ajustar un modelo básico ofrece varias ventajas, como una reducción considerable del tiempo de entrenamiento y menores costos computacionales, ya que los modelos básicos ya han tenido una amplia capacitación general y necesitan menos tiempo y recursos para adaptarse a una nueva tarea. Además, el ajuste fino puede ser eficaz incluso con conjuntos de datos más pequeños y específicos de la tarea, lo que puede reducir el tiempo y el costo asociados con la recopilación y el preprocesamiento de datos. La reducción del tiempo de entrenamiento y los requisitos computacionales del ajuste fino también pueden resultar en un menor consumo de energía, lo que reduce los costos.
Ofrece mejor rendimiento para tareas específicas: los modelos básicos de ajuste fino pueden mejorar la precisión y acelerar la convergencia, siendo este el punto en el que la tasa de error de un modelo de aprendizaje automático se vuelve constante, lo que indica que no seguirá mejorando su precisión con más entrenamiento en el mismo conjunto de datos. Los modelos básicos se pueden adaptar rápidamente a los matices de una nueva tarea con menos datos y menos iteraciones de entrenamiento. Esta combinación de conocimiento general y aprendizaje específico de la tarea ayuda al modelo a funcionar bien cuando encuentra nuevos datos.

Contras

Sobreadaptación: la sobreadaptación de la IA se produce cuando las rondas de entrenamiento sobre nuevos datos son demasiado completas y terminan sustituyendo capas que ayudan al modelo con conocimientos generales. Ese conocimiento general y la flexibilidad del lenguaje del modelo básico son fundamentales para ayudarlo a tener un buen rendimiento cuando se encuentra con nuevos datos. Con la sobreadaptación, el modelo comienza a memorizar los datos de entrenamiento en lugar de aprender los patrones subyacentes que le permiten generalizarse para que pueda manejar nuevos ejemplos.
Costo: los recursos computacionales y la experiencia necesaria para ajustar los modelos de IA pueden ser costosos. El proceso se basa en GPU o TPU (unidades de procesamiento de tensor) de alto rendimiento, que pueden ser costosas, tanto adquirida como alquiladas, a un proveedor en la nube. También puede ser costoso contratar a los expertos necesarios en aprendizaje automático y procesamiento de lenguaje natural.
Tiempo: el ajuste fino puede llevar mucho tiempo por dos motivos. Primero necesita tiempo para preparar los datos, que pueden incluir la recopilación, la depuración, la anotación y el formato. Una vez que el proceso de ajuste fino está en marcha, la adaptación puede tardar horas, días o incluso semanas, dependiendo del tamaño y la complejidad de la tarea. Más tiempo se traduce en mayores costos de tiempo de computación.

Cómo funciona el ajuste fino

El ajuste fino de IA funciona mediante el uso de modelos existentes como puntos de partida. Estos modelos básicos, como Llama 2 de Meta o Command de Cohere, suelen estar disponibles en los proveedores de nube. Muchas organizaciones llevarán otros modelos a sus plataformas de ciencia de datos desde repositorios centralizados, como Hugging Face, TensorFlow Hub y PyTorch Hub, que alojan modelos de aprendizaje automático previamente entrenados.

Empezar con un modelo previamente entrenado

Elige un modelo que sea adecuado para tu tarea, tanto para clasificar texto, analizar sentimientos, responder preguntas, escribir artículos, generar código y detectar objetos, como para cualquier otro trabajo que requiera inteligencia artificial o aprendizaje automático.

Para ajustar un modelo de IA se necesitan tres ingredientes básicos: una recopilación de datos con el formato adecuado, el modelo básico apropiado y una infraestructura que proporcione las redes neuronales para el aprendizaje profundo y las GPU para impulsar el régimen de entrenamiento. Estos recursos a menudo se ensamblan en una plataforma de ciencia de datos o, más recientemente, en un servicio en la nube de IA generativa.

Como suele suceder con la tecnología, el proceso de ajuste de la IA se ha vuelto más fácil con el tiempo, gracias a las nuevas herramientas y servicios de infraestructura de proyectos de código abierto y equipos de desarrollo de proveedores de nube. Estas herramientas y servicios están ayudando a automatizar el ajuste, incluidas tareas complejas que analizaremos más adelante, como la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esto hace que el proceso sea más accesible para los no expertos.

De hecho, los observadores de la industria han señalado que las herramientas se han vuelto tan buenas en la abstracción de los detalles de la ciencia de datos de ajuste fino que la tarea más complicada ahora es recopilar y formatear el mejor conjunto de datos posible. Aquí también se dispone de bibliotecas de datos listas para varios dominios, como atención médica y finanzas, y capacidades, como visión artificial, análisis de sentimientos o detección de anomalías. De hecho, una tendencia cada vez más popular es utilizar un modelo para tu caso de uso que ya se haya ajustado para la tarea utilizando las mencionadas bibliotecas. A partir de ahí, la organización podría ajustar aún más el uso de un conjunto de datos más pequeño y, tal vez, utilizar una generación aumentada por recuperación, o RAG, arquitectura para mejorar aún más los resultados de IA.

Las empresas han encontrado formas de complementar los métodos tradicionales de ajuste con una técnica llamada aprendizaje de refuerzo. Esto permite que los modelos de IA aprendan a través de la prueba y el error y la mejora automática en lugar de utilizar un proceso separado de etiquetado de conjuntos de datos y ajuste fino supervisado.

Cómo ajustar un modelo de IA en cuatro pasos

1. Utilizar un modelo previamente entrenado: el primer paso es seleccionar un modelo base que sea adecuado para la tarea. Existen modelos populares para el procesamiento del lenguaje natural, la visión artificial, la generación de texto y otras áreas.

2. Agregar nuevos datos: a continuación, recopila y prepara un conjunto de datos específico de la tarea. Estos podrían incluir opiniones de clientes etiquetadas o preguntas y respuestas de ejemplo en el ámbito que debería abordar tu modelo.

3. Ajustar: el tercer paso consiste en ajustar el modelo según sea necesario. Los ajustes pueden incluir congelar capas para preservar el aprendizaje previo del modelo; ajustar la tasa de aprendizaje, lo que también puede ayudar a preservar el conocimiento existente del modelo; y agregar capas donde se aprenden tareas completamente nuevas, como una capa de clasificación para una clasificación de texto o una capa de regresión para predicciones.

4. Entrenar el modelo: este proceso implica alimentar los nuevos datos a través del modelo y actualizar los parámetros del modelo. El objetivo es maximizar el rendimiento del modelo de tu tarea mientras mantienes el conocimiento general de su entrenamiento inicial.

Técnicas y métodos de ajuste fino

Para ajustar un modelo, existe una amplia gama de técnicas disponibles entre las que elegir. La primera decisión es si necesitas realizar un ajuste fino completo o selectivo.

Ajuste fino completo

El ajuste completo es un proceso en el que todas las capas y parámetros de un modelo fundamental se actualizan durante el proceso de entrenamiento. Esta es una buena opción cuando tienes un conjunto de datos grande y diverso que puede actualizar adecuadamente los parámetros del modelo sin peligro de incurrir en sobreajustes.

Ajuste fino selectivo

El ajuste fino selectivo implica actualizar solo un subconjunto de las capas o parámetros del modelo mediante un conjunto de datos más pequeño. Este método es bueno para preservar el conocimiento general del modelo básico y reducir el tiempo y el costo de computación del régimen de entrenamiento. Aquí se incluye una serie de ejemplos de técnicas para el ajuste fino selectivo.

Aumento de datos: implica generar datos de entrenamiento adicionales a partir del conjunto de datos existente mediante la aplicación de transformaciones. Para las imágenes, las transformaciones pueden incluir rotación, escalado, recorte o adición de ruido. Esto puede mejorar el rendimiento del ajuste fino cuando el conjunto de datos específico de la tarea sea pequeño.
Parada anticipada: esta técnica se utiliza para supervisar y detener el entrenamiento cuando el rendimiento de un conjunto de validación deja de mejorar. De esta forma, se impulsa la eficiencia y puede ayudar a prevenir el sobreajuste.
Métodos de aprendizaje por conjuntos: este método combina varios modelos con ajuste fino en un intento por reducir la desviación en los resultados (outputs) de los modelos.
Ajuste de capas específicas: esta técnica hace que el ajuste sea más eficiente ajustando solo las capas más superficiales de una red neuronal profunda mientras bloquea o congela capas más profundas.
Ajuste de hiperparámetros: incluye varias técnicas para ajustar las funciones de un proceso de ajuste, como la velocidad de aprendizaje o el tamaño de lote.
Congelación de capas: aquí se bloquean las capas del modelo básico que son responsables de la comprensión básica y universal. Esto ayuda a evitar el sobreajuste, donde el modelo ha memorizado esencialmente los datos de entrenamiento en lugar de aprender patrones generalizables que le permiten manejar correctamente nuevos datos.
Programación de la tasa de aprendizaje: una tasa de aprendizaje más lenta puede permitir ajustes más sutiles y precisos en los parámetros del modelo base. El proceso reduce gradualmente la tasa de aprendizaje, o el tamaño del paso, con el tiempo, ayudando al modelo a aprender nuevo material de manera más eficaz, dando pasos más pequeños a medida que se acerca a la solución óptima.
Técnicas de normalización: se utilizan específicamente para evitar el sobreajuste.
Aprendizaje por transferencia: implica seguir entrenando un modelo básico con un conjunto de datos más pequeño que sea específico de una determinada tarea.

Ajuste fino frente a entrenamiento desde cero

En algunos casos de uso, tiene sentido que diseñes y entrenes tu modelo de IA desde cero. Sin embargo, en la mayoría de los casos, una organización puede obtener el resultado deseado ajustando un modelo básico.

Entrenar un modelo de IA desde cero puede ser la mejor opción en algunos casos. Un ejemplo sería cuando el dominio en el que estás trabajando resulte muy exigente, como una aplicación médica específica con datos de imagen quizás muy concretos. El entrenamiento desde cero requiere que ensambles un gran conjunto de datos y ejecutes largas rondas de entrenamiento en infraestructura específica de IA. Esto puede ser costoso, ya que puede requerir miles de GPU y millones de dólares. También es una tarea en la que se necesitará la experiencia de los científicos de datos e ingenieros de aprendizaje automático.

Ajustar un modelo de IA, por otro lado, implica tomar un modelo básico y adaptarlo a una tarea específica utilizando un conjunto de datos más pequeño y específico de la tarea. Este proceso es a menudo más rápido y eficiente porque el modelo comienza con una base sólida en el lenguaje y el conocimiento general y solo necesita adaptarse a los matices de la nueva tarea. Esto puede mejorar el rendimiento del modelo de IA para sus necesidades con menos trabajo ensamblando y preparando datos y muchas menos rondas de entrenamiento en lugar de entrenamiento desde cero. Obtén más información sobre los beneficios del ajuste a continuación.

Casos de uso comunes para el ajuste

Una amplia gama de empresas de todas las industrias, desde startups hasta corporaciones multinacionales, están ajustando modelos preentrenados. De hecho, se está convirtiendo en una práctica estándar para cualquier organización que busque utilizar la IA porque les permite implementar sistemas adaptados a sus necesidades específicas sin la inversión masiva requerida para el entrenamiento de modelos a gran escala. A continuación se incluyen algunos ejemplos de casos de uso.

Ejemplos reales

Las organizaciones que trabajan en finanzas, logística, atención médica y muchos otros dominios están llevando la IA generativa ajustada a sus operaciones diarias. Estas historias del mundo real te ayudarán a descubrir una amplia gama de casos de uso en vivo. A continuación presentamos tres ejemplos específicos:

Soporte al cliente: una empresa de soluciones de seguridad industrial implementó una herramienta impulsada por IA que inmediatamente mejoró sus operaciones de soporte al cliente. El equipo utiliza Cohere Command R+ LLM ajustado para procesar las consultas de los clientes y generar respuestas precisas.
Atención sanitaria: los investigadores universitarios están utilizando la IA para analizar más a fondo los datos de los pacientes y ayudar a diseñar nuevas terapias contra el cáncer. Están utilizando la infraestructura en la nube para alojar, ejecutar y ajustar los LLM a escala.
Sector servicios: una empresa de IA aplicada en Brasil afina los LLM para ayudar con la terapia de reminiscencia, un tratamiento psicológico probado que ayuda a los pacientes que sufren de deterioro cognitivo.

Lo próximo en ajuste fino

El ajuste fino de la IA está evolucionando rápidamente, especialmente a medida que más agentes de IA dependen de modelos ajustados. El futuro promete más automatización, nuevas técnicas y una gama más amplia de opciones de modelos que pueden ayudar a las organizaciones a adaptar los modelos de IA a sus necesidades.

Estas innovaciones incluyen servicios de aprendizaje automático mejorados que automatizan el ajuste, incluida la optimización de hiperparámetros, la selección de modelos y el preprocesamiento de datos. Esperamos que las técnicas de aumento de datos sensibles al contexto ayuden al modelo a aprender más funciones relevantes más rápidamente, y el aprendizaje dinámico permitirá que el modelo ajuste su ritmo de aprendizaje sobre la marcha. Y busca creadores de modelos básicos y de aprendizaje automático para seguir lanzando modelos más versátiles y potentes que puedan transferir conocimientos a través de diferentes modalidades y se puedan ajustar para realizar tareas que requieran la comprensión de varios tipos de datos. El truco será crear una infraestructura de datos que sea lo suficientemente versátil como para aprovechar estas nuevas innovaciones cuando lleguen.

Mejora tus modelos de IA con soluciones de IA generativa

¿Sabías que Oracle Cloud Infrastructure (OCI) te da acceso a lo que necesitas para ajustar el aprendizaje automático y los modelos básicos? Oracle proporciona infraestructura física, infraestructura de procesamiento de datos, plataforma de ciencia de datos y servicios de IA generativa en servicios totalmente gestionados. El servicio de IA generativa de OCI, por ejemplo, ofrece una integración sencilla y perfecta con LLM versátiles en un servicio fácil de usar. Utilízalo para ajustar modelos para una amplia gama de casos de uso, incluida asistencia para la escritura, resumen, análisis y chat.

Mientras tanto, tus científicos de datos e ingenieros de aprendizaje automático pueden aprovechar la plataforma de ciencia de datos de Oracle para colaborar en la creación, formación e implementación de modelos de aprendizaje automático mediante herramientas de Python y código abierto. Un entorno basado en JupyterLab proporciona todos los recursos necesarios para experimentar, desarrollar modelos y escalar verticalmente el entrenamiento de modelos con GPU NVIDIA y entrenamiento distribuido. Incluye modelos en la fase de producción y mantenlos en condiciones adecuadas con capacidades de operaciones de aprendizaje automático (MLOps), como pipelines automatizados, implementación de modelos y control de modelos.

Ajustar un modelo de IA es solo una forma de aprovechar esta tecnología para adelantar a la competencia. Descubre otras formas que pueden ayudar a beneficiar a las empresas.

Accede al ebook

Preguntas frecuentes sobre el ajuste fino

¿En qué se diferencia el ajuste fino de otros tipos de entrenamiento de modelos?

Los modelos de IA de ajuste fino y el entrenamiento de modelos de IA desde cero son dos cosas distintas. Es el proceso de agregar rondas de entrenamiento a un modelo básico sofisticado, lo que permite obtener resultados más relevantes para el contexto en una tarea específica. El ajuste fino a menudo requiere menos datos y tiempo y resulta más económico que crear y entrenar un modelo desde cero.

¿Se puede utilizar el ajuste fino con cualquier tipo de modelo?

El ajuste fino de IA se puede utilizar con modelos básicos en una amplia gama de casos de uso, ya sea reconocimiento de imágenes, clasificación de texto, generación de idiomas, salidas de audio u otras salidas.