RAG frente a ajuste fino: Qué opción elegir

Jeffrey Erickson | Escritor sénior | 21 de noviembre de 2024

En este artículo

¿Qué es la generación con recuperación aumentada (RAG)?
¿Qué es el ajuste fino?
Generación aumentada por recuperación (RAG) frente a ajuste: diferencias clave
Cómo elegir entre RAG y ajuste fino
Obtén más valor de negocio de IA generativa con Oracle Cloud Infrastructure
Preguntas frecuentes sobre RAG frente a ajuste fino

Los grandes modelos de lenguaje de propósito general, o LLM, se han vuelto populares entre el público porque pueden discutir una amplia variedad de temas y escribir documentos de términos, notas de agradecimiento y muchas otras tareas. Sin embargo, en los negocios no servirán estos resultados genéricos. Un LLM que se espera que proporcione soporte técnico para un gadget en particular, por ejemplo, debe basarse en conocimientos específicos del dominio.

Actualmente hay dos formas de ayudar a los modelos de IA generativa a ofrecer respuestas que reflejen ese tipo de experiencia: ajuste fino y generación aumentada por recuperación, o RAG. Cada uno presenta diversos beneficios y desafíos. Echemos un vistazo más profundo a estas opciones para comprender cómo funcionan y cuándo usarlas.

Conclusiones clave

Tanto la RAG como el ajuste fino logran que los modelos genéricos de IA sean más útiles en un campo en particular o para un caso de uso específico.
La RAG proporciona a un LLM acceso a los almacenes de datos internos de una empresa, lo cual facilita al LLM proporcionar respuestas más específicas, lo cual resulta fundamental para los casos de uso que se basan en información actualizada.
Los usos comunes de RAG incluyen soporte técnico, búsqueda de inventario y recomendaciones de venta retail.
El ajuste fino utiliza una recopilación de datos específicos del dominio para entrenar un LLM de uso general para una tarea concreta. Piensa en la medicina o la codificación, que tienen su propia lógica y jerga.
El ajuste fino y la RAG se pueden combinar para proporcionar a un LLM un sólido conocimiento del dominio y una información actualizada.

¿Qué es la generación con recuperación aumentada (RAG)?

RAG, abreviatura de generación aumentada por recuperación, es un marco desarrollado por investigadores de Meta para ayudar a los modelos de IA de propósito general a ofrecer resultados que sean relevantes y útiles para las organizaciones. RAG hace esto dando a un modelo grande de lenguaje, o LLM, acceso a una base de conocimientos interna que puede usar para aumentar sus datos de entrenamiento originales. El resultado es un sistema de IA que combina la fluidez lingüística de un LLM con datos locales para ofrecer respuestas específicas y contextualmente adecuadas. Este enfoque, a diferencia del ajuste fino del modelo de IA, funciona sin modificar el modelo subyacente en sí.

Cuándo utilizar la RAG

Utiliza la RAG cuando sea importante que las respuestas de IA generativa proporcionen datos actualizados o específicos de la organización que no formaran parte del entrenamiento del LLM. Por ejemplo, si una empresa tiene un gran corpus de información confiable sobre sus productos u operaciones diarias, una arquitectura RAG proporcionará esos datos para mejorar los prompts y las respuestas que pasan por el LLM, haciendo que las salidas sean más útiles, verificables y precisas. Esto puede mejorar la automatización del servicio de ayuda, las comprobaciones de disponibilidad de productos en el sector retail o incluso la atención médica, ya que las notas de los médicos se pueden poner rápidamente a disposición de los pacientes u otros médicos.

Casos de uso de la RAG

Entre las ventajas más comunes de la RAG en todos los sectores, se incluyen una recuperación de datos más eficaz y completa, mejora de la atención al cliente y la capacidad de generar contenido personalizado. Al complementar los LLM con información actual, las organizaciones pueden implementar agentes de IA para proporcionar respuestas en tiempo real y contextualmente relevantes a las consultas de los usuarios, minimizando la necesidad de intervención humana. La versatilidad de RAG te permite adaptarte a una amplia gama de aplicaciones, incluidas las siguientes:

Inteligencia empresarial. Las empresas pueden utilizar RAG para facilitar que los modelos de IA generativa extraigan datos relevantes del mercado para la producción automatizada de insights e informes. Estos datos pueden incluir estudios de mercado, análisis de la competencia, volumen de ventas y comentarios de los clientes.
Recomendaciones de contenido. La RAG puede mejorar los sistemas de recomendación de contenidos, a menudo junto con bases de datos vectoriales. La RAG permite al modelo de IA recuperar y analizar las revisiones de los usuarios, las calificaciones y las descripciones de contenido que permiten al sistema generar recomendaciones personalizadas alineadas con el prompt del usuario.
Comprobación de hechos en el periodismo y otros medios de comunicación. La RAG puede ayudar a las organizaciones a recuperar rápidamente documentos de referencia cruzada para verificar las reclamaciones realizadas en artículos, informes o redes sociales.
Diagnóstico médico. En el sector salud, la RAG se puede aplicar para apoyar a los médicos y otros facultativos a realizar las tareas de diagnóstico y la planificación del tratamiento. Logra esto ayudando a los modelos de IA a recuperar estudios de casos médicos, documentos de investigación o resultados de ensayos clínicos que sean relevantes para los síntomas o la condición de un paciente.
Soporte técnico. La RAG se puede utilizar para ayudar a reducir el tiempo de resolución y mejorar la satisfacción del usuario con el servicio de soporte técnico. El sistema puede recuperar guías y documentación relevantes para la resolución de problemas o incluso analizar los temas del foro y proporcionarlos al LLM para ayudar a resolver los problemas de los usuarios. Además, la RAG puede hacer referencia a una base de datos que contiene registros de las interacciones recientes de un cliente para un servicio más personalizado y personal.

¿Qué es el ajuste fino?

Ajustar un modelo de IA generativa significa tomar un modelo de propósito general, como Claude 2 de Anthropic, Command de Cohere o Llama 2 de Meta; someterlo a rondas adicionales de entrenamiento sobre la base de un conjunto de datos más pequeño y específico del dominio; y adaptar los parámetros del modelo en función de este entrenamiento. Este ajuste ayuda al modelo a realizar mejor tareas específicas porque se ha adaptado a los matices y la terminología de un dominio en particular, como la codificación o la atención médica.

Cuándo utilizar el ajuste fino

Elige el ajuste fino cuando un LLM necesita ser definido en un dominio en particular. Con una formación adicional, un LLM puede comprender mejor los prompts y ofrecer salidas que reflejen los matices y la terminología de un campo en particular. Necesitarás acceso a un gran conjunto de datos o almacén de documentos seleccionados para el proceso de entrenamiento, pero el ajuste fino vale la pena porque permite control mejor el estilo, el tono y la forma de contenido generado. De esta forma, puede resultar beneficioso en tus materiales de marketing o en las interacciones con los clientes. El ajuste fino, como la RAG, también puede ser útil en medicina, codificación y otros dominios altamente especializados.

Casos de uso de ajuste fino

El ajuste fino, el proceso de adaptación de un modelo de IA general a una tarea o dominio específico, es una técnica poderosa que puede mejorar significativamente los resultados para una variedad de organizaciones, especialmente en casos en los que la personalización y la especialización resultan clave. Estos son algunos casos de uso comunes en los que puede ser particularmente eficaz:

Automatización del soporte al cliente. Ajustar un LLM mediante una recopilación grande y adecuadamente organizada de datos y documentos sobre los productos, servicios y operaciones de tu empresa puede ayudar a que un LLM sea un sistema automatizado de soporte al cliente más útil. El LLM ajustado comprenderá mejor el vocabulario y los matices de las interacciones con los clientes y podrá responder adecuadamente.
Contenido educativo. Los LLM se pueden ajustar en materiales educativos en un dominio específico, como la historia o la gramática. A continuación, el LLM puede ayudar a crear nuevo contenido de aprendizaje, resumir libros de texto, generar preguntas de prueba e incluso proporcionar sesiones de tutoría en varias áreas temáticas.
Procesamiento de información médica. Los LLM se pueden ajustar con literatura médica, registros de pacientes anónimos y otros textos e imágenes médicas, lo que los hace más útiles para sugerir tratamientos y diagnósticos.

La generación aumentada por recuperación aumentada (RAG) frente a ajuste: diferencias clave

Tanto el ajuste como la RAG hacen que los LLM de uso general sean más útiles, pero lo hacen de diferentes maneras. Una analogía sencilla es que el ajuste fino de un LLM le brinda una comprensión más profunda de un dominio en particular, como la medicina o la educación, mientras que la combinación del LLM con una arquitectura RAG le proporciona acceso a datos locales actualizados para sus respuestas.

¿Por qué no usarlos juntos para obtener respuestas que sean matizadas y oportunas? Es una tendencia creciente e incluso viene con su propio acrónimo: RAFT, para el ajuste fino aumentado por recuperación. Con este enfoque híbrido, un modelo ajustado con datos de dominio especializados se implementa en una arquitectura de RAG, donde utiliza su experiencia en el dominio para recuperar la información más relevante durante la generación de respuestas. El resultado son outputs muy precisos, relevantes y sensibles al contexto.

Vamos a analizar RAFT un poco más, pero antes entendamos mejor los dos métodos.

Ajuste fino

Tanto la RAG como el ajuste ayudan a un LLM a ir más allá de las respuestas genéricas extraídas de sus conjuntos de datos de entrenamiento originales y generalizados. El ajuste fino implica someter a un LLM a rondas adicionales de entrenamiento utilizando conjuntos de datos que son específicos de un dominio u organización en particular.

Requisitos
Eso requiere que los equipos de TI y negocios realicen el trabajo inicial para recopilar, limpiar y etiquetar grandes conjuntos de datos para estas nuevas rondas de capacitación. El régimen de entrenamiento en sí mismo requiere un uso intensivo de los recursos informáticos, de modo que se necesita una arquitectura de IA avanzada de redes neuronales respaldadas por suficientes GPU para entrenar el LLM en un tiempo razonable.
Resultado
El resultado es un LLM que domina la información y el lenguaje de un dominio o caso de negocio concreto.
Posibles inconvenientes
A diferencia de un sistema RAG, el LLM depende por completo del conjunto de datos utilizado para su régimen de formación de ajuste y carece de acceso a conocimientos externos actualizados. Un LLM ajustado también puede perder o "olvidar" algunos de los puntos más finos de su entrenamiento original. Por ejemplo, podría perder la precisión en la conversación general a medida que se sumerge en una especialidad particular, como la medicina. Quizás conoces algún médico a los que le pasa lo mismo.

RAG

La RAG también altera las respuestas de los LLM, pero no cambia el modelo subyacente. En su lugar, un sistema de RAG utiliza una base de datos local o una recopilación seleccionada de documentos para informar las respuestas de un LLM, a menudo con detalles actualizados.

Fortalezas
La arquitectura de RAG se considera superior al ajuste en términos de seguridad y privacidad de los datos, ya que estos se pueden almacenar en un entorno seguro con controles de acceso estrictos, lo que ayuda a garantizar que los datos privados no se reflejen en las respuestas de IA.
Debilidades
Una debilidad de este enfoque en comparación con el ajuste es que los modelos de lenguaje no están entrenados para la precisión en ningún dominio en particular; están trabajando desde el conocimiento general de la formación del LLM.

Comparación de conjuntos de competencias y costos

Conjuntos de competencias
En cuanto a las competencias necesarias, mientras que la RAG es más fácil de implementar, la RAG y el ajuste requieren los mismos conocimientos en codificación y gestión de datos. Sin embargo, más allá de eso, un equipo que participe en el ajuste fino necesita más experiencia en procesamiento de lenguaje natural (NLP), aprendizaje profundo y configuración de modelos.
Tiempo y costo
El ajuste requiere más trabajo inicial, mientras que la RAG requiere más recursos en tiempo de ejecución. El ajuste significa rondas de formación intensiva en recursos informáticos antes de que se pueda desplegar el LLM, lo que lo convierte en un proyecto más costoso que una arquitectura de RAG. Sin embargo, una vez que se pone en marcha un LLM con ajuste fino, la arquitectura de tiempo de ejecución es bastante sencilla. En este punto, un sistema de RAG agrega una capa adicional de complejidad al LLM, lo que requiere que un equipo mantenga una base de datos actualizada y recursos computacionales adicionales para cada prompt.

Enfoque híbrido: RAFT

Las limitaciones y beneficios de estos dos enfoques han llevado, naturalmente, a una tendencia creciente a combinar sus fortalezas. El resultado es el enfoque híbrido llamado RAFT.

Cómo elegir entre RAG y ajuste fino

La elección entre utilizar una arquitectura de RAG o un régimen de ajuste fino se reduce a los recursos que tiene y cómo utilizará su LLM. Como se indica en la tabla siguiente, en la mayoría de los casos de uso resultará beneficioso combinar los dos enfoques: para la mayoría de las empresas, una vez que hayan realizado el ajuste fino, incorporar la RAG supone el siguiente paso natural. No obstante, a continuación incluimos una serie de preguntas que debemos formularnos para determinar qué método priorizar:

¿Deben las respuestas incluir datos locales y muy actuales? Informar las respuestas del LLM con tus propios datos actualizados es una de las principales fortalezas de la RAG y la razón por la cual ha ganado popularidad rápidamente.
¿El LLM trabaja en una industria especializada? El ajuste fino permite a un LLM interpretar mejor los prompts y ofrecer respuestas en el lenguaje único de una tarea o campo de operaciones en particular, como la atención médica.
¿Son la privacidad y la seguridad de los datos primordiales? Una arquitectura RAG permite a una organización mantener los datos confidenciales en una base de datos local bien protegida.
¿Es importante el tono y la forma de respuesta? El ajuste permite a un LLM ofrecer respuestas en el idioma especializado preferido por una organización o un campo en particular. Si los clientes, los clientes minoristas o los partners van a consultar el LLM, el ajuste agrega un tono profesional.
¿Los recursos de tiempo de ejecución son limitados? Un LLM ajustado no requiere más recursos de tiempo de ejecución que un LLM de uso general. La RAG es más compleja, lo que requiere que el LLM consulte bases de datos locales para aumentar las respuestas. Eso incrementa los gastos generales.
¿Hay acceso a la infraestructura informática y a los conjuntos de competencias de IA? El ajuste fino de un LLM requiere las dos cosas. La RAG necesita recursos de tiempo de ejecución e infraestructura de datos, pero menos competencias de IA.

Requisitos de caso de uso	RAG	Ajuste fino	RAFT
Las respuestas deben incluir información local y actualizada.	sí	no	sí
Las respuestas deben incluir un alto nivel de explicabilidad.	sí	no	sí
Las respuestas deben reflejar el profundo conocimiento del dominio de una organización.	sí	sí	sí
La organización tiene acceso a una poderosa red neuronal y recursos de GPU para el entrenamiento de IA.	no	sí	sí
Las respuestas deben reflejar el tono y el lenguaje de marketing de una organización.	no	sí	sí
La organización posee una colección grande, bien organizada y actualizada de documentos para que la IA pueda extraer y citar en sus respuestas.	sí	no	sí
El sistema de IA tiene acceso a recursos de tiempo de ejecución limitados.	no	sí	sí
La organización posee un gran conjunto de datos y un almacén de documentos seleccionados para entrenar y ajustar una IA.	sí	no	sí

Obtén más valor de negocio de IA generativa con Oracle Cloud Infrastructure

Tanto si eliges RAG, ajuste fino o ambos métodos, Oracle se especializa en ayudar a organizaciones como la tuya a aumentar la productividad con Oracle Cloud Infrastructure (OCI) Generative AI, un servicio totalmente gestionado que incluye la potencia de OCI y una selección de LLM de código abierto o propietarios.

Hacemos que sea fácil combinar tu LLM con RAG para que pueda obtener respuestas actualizadas basadas en sus diversas bases de conocimientos. Cuando llega el momento de ejecutar tu régimen de ajuste fino, la infraestructura de Oracle AI es una gran opción. Encontrarás superclusters que escalan hasta 65 536 GPU, más que suficiente para ejecutar tus cargas de trabajo de entrenamiento e inferencia más exigentes, como respuestas de LLM, visión por computadora y análisis predictivos.

Los LLM de propósito general continúan mejorando, con un flujo constante de nuevas versiones que llegan de la talla de Anthropic, Cohere, Google, Meta y muchos otros. Pero no importa con qué eficacia estos modelos de IA manejan el lenguaje humano, siempre necesitarán una forma de conectar ese conjunto de habilidades con las necesidades específicas de los casos de uso empresariales. El ajuste fino y la RAG son actualmente los dos mejores métodos para hacer esto. Busca que sigan evolucionando a medida que avanzan los modelos de IA, el hardware y las arquitecturas de datos.

Tu centro de excelencia de IA debe desempeñar un papel fundamental en la supervisión y gestión de la implementación de agentes de IA. ¿No tienes un Centro de Excelencia (centro de excelencia)? He aquí cómo poner uno en marcha ahora.

Accede al ebook

Preguntas frecuentes sobre la RAG frente al ajuste fino

¿La RAG es mejor que el ajuste fino?

La RAG y el ajuste fino del modelo de IA son dos cosas distintas, con sus propios beneficios y costos. Ambos son métodos populares para lograr que los modelos de IA generativa sean más útiles, y cada organización debe elegir el método que mejor se adapte a sus necesidades. Otra opción popular es combinar los dos enfoques, llamados RAFT, para el ajuste fino aumentado por recuperación.

¿Qué es mejor que la RAG?

La RAG es simplemente una técnica para ayudar a un LLM a ofrecer mejores respuestas al hacer referencia a los datos y documentos de una empresa. Un método llamado GraphRAG ha surgido como una forma de mejorar aún más las respuestas del LLM más allá de lo que una arquitectura RAG puede hacer por sí sola, pero agrega complejidad arquitectónica y los casos de uso populares aún no han surgido.

Ajustar un modelo de IA es otro método que puede ayudar a un LLM a ofrecer respuestas más específicas o matizadas, y se puede combinar con la RAG para mejorar aún más el rendimiento del LLM.

¿Se pueden utilizar juntos la RAG y el ajuste fino?

Sí. Este enfoque híbrido ofrece un modelo ajustado en datos de dominio especializados y luego implementado en una arquitectura RAG para que pueda ofrecer la información más reciente o más relevante en sus respuestas.

¿Cuál es la diferencia entre la RAG y el aprendizaje por transferencia?

La RAG mejora las respuestas de un LLM al acceder a una base de conocimientos local y actualizada. El aprendizaje por transferencia mejora las respuestas de un modelo de IA de uso general al acceder a un modelo de IA independiente que se ha ajustado para que funcione en un dominio concreto.