RAG vs. Fine-Tuning: Cómo elegir

Jeffrey Erickson | Escritor sénior | 21 de noviembre de 2024

Los grandes modelos de lenguaje de propósito general, o LLM, se han vuelto populares entre el público porque pueden discutir una amplia variedad de temas y escribir documentos de términos, notas de agradecimiento y muchas otras tareas. En los negocios, sin embargo, estos resultados genéricos no lo harán. Un LLM que se espera proporcione soporte técnico para un gadget en particular, por ejemplo, debe basarse en conocimientos específicos del dominio.

Actualmente hay dos formas de ayudar a los modelos de IA generativa a ofrecer respuestas que reflejen ese tipo de experiencia: ajustar y recuperar la generación aumentada, o RAG. Cada uno viene con beneficios y desafíos. Echemos un vistazo más profundo a estas opciones para comprender cómo funcionan y cuándo usarlas.

Conclusiones clave

  • Tanto la RAG como el ajuste hacen que los modelos genéricos de IA sean más útiles en un campo en particular o para un caso de uso específico.
  • RAG proporciona a un LLM acceso a los almacenes de datos internos de una empresa, lo que ayuda al LLM a proporcionar respuestas más específicas, lo que es fundamental para los casos de uso que se basan en información actualizada.
  • Los usos comunes de RAG incluyen soporte técnico, búsqueda de inventario y recomendaciones de venta minorista.
  • El ajuste utiliza una recopilación de datos específicos del dominio para entrenar un LLM de uso general para una tarea concreta. Piense en la medicina o la codificación, que tienen su propia lógica y lenguaje.
  • El ajuste y la RAG se pueden combinar para proporcionar a un LLM un sólido conocimiento del dominio y una información actualizada.

¿Qué es la generación con recuperación aumentada (RAG)?

RAG, abreviatura de generación aumentada de recuperación, es un marco arquitectónico desarrollado por investigadores de Meta para ayudar a los modelos de IA de propósito general a ofrecer resultados que sean relevantes y útiles para las organizaciones. RAG hace esto dando a un modelo de lenguaje grande, o LLM, acceso a una base de conocimientos interna que puede usar para aumentar sus datos de entrenamiento originales. El resultado es un sistema de IA que combina la fluidez lingüística de un LLM con datos locales para ofrecer respuestas específicas y contextualmente adecuadas. Este enfoque, a diferencia del ajuste del modelo de IA, funciona sin modificar el modelo subyacente en sí.

Cuándo se debe utilizar RAG

Utiliza la RAG cuando sea importante que las respuestas de IA generativa proporcionen datos actualizados o específicos de la organización que no formaran parte del entrenamiento del LLM. Por ejemplo, si una empresa tiene un gran corpus de información confiable sobre sus productos u operaciones diarias, una arquitectura RAG proporcionará esos datos para aumentar las peticiones de datos y las respuestas que pasan por el LLM, haciendo que las salidas sean más útiles, verificables y precisas. Esto puede mejorar la automatización del servicio de ayuda, las comprobaciones de disponibilidad de productos en el sector minorista o incluso la atención médica, ya que las notas de los médicos se pueden poner rápidamente a disposición de los pacientes u otros médicos.

Casos de uso de RAG

Las ventajas comunes de la RAG en todos los sectores incluyen una recuperación de datos mejor y más completa, un soporte al cliente mejorado y la capacidad de generar contenido personalizado. Al complementar los LLM con información actual, las organizaciones pueden implementar agentes de IA para proporcionar respuestas en tiempo real y contextualmente relevantes a las consultas de los usuarios, minimizando la necesidad de intervención humana. La versatilidad de RAG le permite adaptarse a una amplia gama de aplicaciones, incluyendo las siguientes:

  • Inteligencia empresarial. Las empresas pueden utilizar RAG para ayudar a los modelos GenAI a extraer datos relevantes del mercado para la producción automatizada de insights e informes. Estos datos pueden incluir estudios de mercado, análisis de competidores, volumen de ventas y comentarios de clientes.
  • Recomendaciones de contenido. La RAG puede mejorar los sistemas de recomendación de contenido, a menudo junto con bases de datos vectoriales. RAG permite al modelo de IA recuperar y analizar las revisiones de los usuarios, las calificaciones y las descripciones de contenido que permiten al sistema generar recomendaciones personalizadas alineadas con la petición de datos del usuario.
  • Verificación de hechos en el periodismo y otros medios de comunicación. RAG puede ayudar a las organizaciones a recuperar rápidamente documentos de referencia cruzada para verificar las reclamaciones realizadas en artículos, informes o redes sociales.
  • Diagnóstico médico. En la atención médica, la RAG se puede aplicar para apoyar a los médicos y otros médicos ayudando en el diagnóstico y la planificación del tratamiento. Esto lo hace ayudando a los modelos de IA a recuperar estudios de casos médicos, documentos de investigación o resultados de ensayos clínicos que son relevantes para los síntomas o la condición de un paciente.
  • Soporte Técnico. RAG se puede utilizar para ayudar a reducir el tiempo de resolución y mejorar la satisfacción del usuario en el soporte técnico. El sistema puede recuperar guías y documentación relevantes para la resolución de problemas o incluso analizar los temas del foro y proporcionarlos al LLM para ayudar a resolver los problemas de los usuarios. Además, RAG puede hacer referencia a una base de datos que contiene registros de las interacciones recientes de un cliente para un servicio más personalizado y personal.

¿Qué es el ajuste?

Ajustar un modelo de IA generativa significa tomar un modelo de propósito general, como Claude 2 de Anthropic, Command de Cohere o Llama 2 de Meta; darle rondas adicionales de entrenamiento en un conjunto de datos más pequeño y específico del dominio; y ajustar los parámetros del modelo en función de este entrenamiento. Este ajuste ayuda al modelo a realizar mejor tareas específicas porque se ha adaptado a los matices y la terminología de un dominio en particular, como la codificación o la atención médica.

Cuándo utilizar el ajuste detallado

Elige el ajuste cuando un LLM necesita ser definido en un dominio en particular. Con una formación adicional, un LLM puede comprender mejor las peticiones de datos y ofrecer salidas que reflejen los matices y la terminología de un campo en particular. Necesitará acceso a un gran conjunto de datos o almacén de documentos seleccionados para el proceso de entrenamiento, pero el ajuste vale la pena porque permite un mayor control sobre el estilo, el tono y la forma de contenido generado. Eso puede dar sus frutos en sus materiales de marketing o en las interacciones con los clientes. El ajuste fino, como RAG, también puede ser útil en medicina, codificación y otros dominios altamente especializados.

Casos de uso de ajuste

El ajuste, el proceso de adaptación de un modelo de IA general a una tarea o dominio específico, es una técnica poderosa que puede mejorar significativamente los resultados para una variedad de organizaciones, especialmente en casos en los que la personalización y la especialización son clave. Estos son algunos casos de uso comunes en los que puede ser particularmente eficaz:

  • Automatización del soporte al cliente. Ajustar un LLM mediante una recopilación grande y bien curada de datos y documentos sobre los productos, servicios y operaciones de su empresa puede ayudar a que un LLM sea un sistema automatizado de soporte al cliente más útil. El LLM ajustado comprenderá mejor el vocabulario y los matices de las interacciones con los clientes y podrá responder adecuadamente.
  • Contenido educativo. Los LLM se pueden ajustar en materiales educativos en un dominio específico, como la historia o la gramática. A continuación, el LLM puede ayudar a crear nuevo contenido de aprendizaje, resumir libros de texto, generar preguntas de prueba e incluso proporcionar sesiones de tutoría en varias áreas temáticas.
  • Procesamiento de información médica. Los LLM se pueden ajustar con literatura médica, registros de pacientes anónimos y otros textos e imágenes médicas, lo que los hace más útiles para sugerir tratamientos y diagnósticos.

Generación con recuperación aumentada (RAG) frente a ajuste: diferencias clave

Tanto el ajuste como la RAG hacen que los LLM de uso general sean más útiles, pero lo hacen de diferentes maneras. Una analogía simple es que el ajuste de un LLM le da una comprensión más profunda de un dominio en particular, como la medicina o la educación, mientras que la combinación del LLM con una arquitectura RAG le da acceso a datos locales actualizados para sus respuestas.

¿Por qué no usarlos juntos para obtener respuestas que sean matizadas y oportunas? Es una tendencia creciente e incluso viene con su propio acrónimo: RAFT, para la recuperación aumentada de ajuste. Con este enfoque híbrido, un modelo ajustado en datos de dominio especializados se implementa en una arquitectura RAG, donde utiliza su experiencia en el dominio para recuperar la información más relevante durante la generación de respuestas. El resultado son salidas muy precisas, relevantes y conscientes del contexto.

Vamos a discutir RAFT un poco más, pero primero vamos a obtener una mejor comprensión de los dos enfoques.

Ajuste

Tanto la RAG como el ajuste ayudan a un LLM a ir más allá de las respuestas genéricas extraídas de sus conjuntos de datos de entrenamiento originales y generalizados. El ajuste implica poner un LLM a través de rondas adicionales de entrenamiento utilizando conjuntos de datos que son específicos de un dominio u organización en particular.

  • Requisitos
    Eso requiere que los equipos de TI y negocios realicen el trabajo inicial para recopilar, limpiar y etiquetar grandes conjuntos de datos para estas nuevas rondas de capacitación. El régimen de entrenamiento en sí mismo requiere un uso intensivo de los recursos informáticos, lo que requiere una arquitectura de IA avanzada de redes neuronales respaldadas por suficientes GPU para entrenar el LLM en un tiempo razonable.
  • Resultado
    El resultado es un LLM que domina la información y el lenguaje de un dominio o caso de negocio concreto.
  • Posibles inconvenientes
    A diferencia de un sistema RAG, el LLM depende por completo del conjunto de datos utilizado para su régimen de formación de ajuste y carece de acceso a conocimientos externos actualizados. Un LLM ajustado también puede perder o "olvidar" algunos de los puntos más finos de su entrenamiento original. Por ejemplo, podría perder la delicadeza en la conversación general a medida que se sumerge en una especialidad particular, como la medicina. Quizás conoces a médicos que sufren este mismo destino.

RAG

RAG también altera las respuestas de los LLM, pero no cambia el modelo subyacente. En su lugar, un sistema RAG utiliza una base de datos local o una recopilación seleccionada de documentos para informar las respuestas de un LLM, a menudo con detalles actualizados.

  • Fortalezas
    La arquitectura RAG se considera superior al ajuste en términos de seguridad y privacidad de los datos, ya que estos se pueden almacenar en un entorno seguro con controles de acceso estrictos, lo que ayuda a garantizar que los datos privados no se reflejen en las respuestas de IA.
  • Debilidades
    Una debilidad de este enfoque en comparación con el ajuste es que los modelos de lenguaje no están entrenados para la precisión en ningún dominio en particular; están trabajando desde el conocimiento general de la formación del LLM.

Comparación de conjuntos de habilidades y costos

  • Juegos de habilidades
    En términos de conjuntos de habilidades, mientras que la RAG es más fácil de implementar, la RAG y el ajuste requieren una experiencia superpuesta en codificación y gestión de datos. Sin embargo, más allá de eso, un equipo involucrado en el ajuste necesita más experiencia en procesamiento de lenguaje natural (NLP), aprendizaje profundo y configuración de modelos.
  • Tiempo y costo
    El ajuste requiere más trabajo inicial, mientras que la RAG requiere más recursos en tiempo de ejecución. El ajuste significa rondas de formación intensiva en recursos informáticos antes de que se pueda desplegar el LLM, lo que lo convierte en un proyecto más costoso en comparación con una arquitectura RAG. Sin embargo, una vez que se pone en servicio un LLM ajustado, la arquitectura de tiempo de ejecución es bastante sencilla. En este punto, un sistema RAG agrega una capa adicional de complejidad al LLM, lo que requiere que un equipo mantenga una base de datos actualizada y recursos computacionales adicionales para cada petición de datos.

Enfoque híbrido: RAFT

Las limitaciones y beneficios de estos dos enfoques han llevado, naturalmente, a una tendencia creciente a combinar sus fortalezas. El resultado es el enfoque híbrido llamado RAFT.

Cómo elegir entre RAG y ajuste fino

La elección entre utilizar una arquitectura RAG o un régimen de ajuste se reduce a los recursos que tiene y cómo utilizará su LLM. Como se indica en la tabla siguiente, la mayoría de los casos de uso se beneficiarán del esfuerzo por combinar los dos enfoques: para la mayoría de las empresas, una vez que hayan realizado el esfuerzo de ajustar, la RAG es una adición natural. Pero aquí hay seis preguntas que hacer para determinar cuál priorizar:

  1. ¿Deben las respuestas incluir datos locales y muy actuales? Informar las respuestas del LLM con sus propios datos actualizados es una fortaleza de la RAG y por qué ha ganado popularidad rápidamente.
  2. ¿El LLM trabaja en una industria especializada? El ajuste permite a un LLM interpretar mejor las peticiones de datos y ofrecer respuestas en el lenguaje único de una tarea o campo de operaciones en particular, como la atención médica.
  3. ¿Es primordial la privacidad y la seguridad de los datos? Una arquitectura RAG permite a una organización mantener los datos confidenciales en una base de datos local bien protegida.
  4. ¿Es importante el tono y la forma de respuesta? El ajuste permite a un LLM ofrecer respuestas en el idioma especializado preferido por una organización o un campo en particular. Si los clientes, los clientes minoristas o los socios van a consultar el LLM, el ajuste agrega un tono profesional.
  5. ¿Los recursos de tiempo de ejecución son limitados? Un LLM ajustado no requiere más recursos de tiempo de ejecución que un LLM de uso general. RAG es más complejo, lo que requiere que el LLM consulte bases de datos locales para aumentar las respuestas. Que agrega gastos generales.
  6. ¿Hay acceso a la infraestructura informática y a los conjuntos de habilidades de IA? El ajuste de un LLM requiere ambos. RAG necesita recursos de tiempo de ejecución e infraestructura de datos, pero menos habilidades de IA.
Requisitos de caso de uso RAG Ajuste RAFT
Las respuestas deben incluir información local y actualizada.
no
Las respuestas deben incluir un alto nivel de explicabilidad.
no
Las respuestas deben reflejar el profundo conocimiento del dominio de una organización.
La organización tiene acceso a una poderosa red neuronal y recursos de GPU para el entrenamiento de IA.
no
Las respuestas deben reflejar el tono y el lenguaje de marketing de una organización.
no
La organización posee una colección grande, bien organizada y actualizada de documentos para que la IA pueda extraer y citar en sus respuestas.
no
El sistema de IA tiene acceso a recursos de tiempo de ejecución limitados.
no
La organización posee un gran conjunto de datos y un almacén de documentos seleccionados para entrenar y ajustar una IA.
no

Obtén más valor de negocio de GenAI con Oracle Cloud Infrastructure

Ya sea que elijas RAG, ajuste o ambos, Oracle se especializa en ayudar a organizaciones como la tuya a aumentar la productividad con Oracle Cloud Infrastructure (OCI) Generative AI, un servicio totalmente gestionado que incluye la potencia de OCI y una selección de LLM de código abierto o propietarios.

Hacemos que sea fácil combinar su LLM con RAG para que puedas obtener respuestas actualizadas basadas en tus diversas bases de conocimientos. Cuando llega el momento de ejecutar tu régimen de ajuste, la infraestructura de Oracle AI es una gran opción. Encontrarás superclusters que escalan hasta 65,536 GPU, más que suficiente para ejecutar tus cargas de trabajo de entrenamiento e inferencia más exigentes, como respuestas de LLM, visión por computadora y análisis predictivos.

Los LLM de propósito general continúan mejorando, con un flujo constante de nuevas versiones que llegan de la talla de Anthropic, Cohere, Google, Meta y muchos otros. Pero no importa cuán hábilmente estos modelos de IA manejen el lenguaje humano, siempre necesitarán una forma de conectar ese conjunto de habilidades con las necesidades específicas de los casos de uso empresariales. El ajuste y la RAG son actualmente los dos mejores métodos para hacer esto. Busca que sigan evolucionando a medida que avanzan los modelos de IA, el hardware y las arquitecturas de datos.

Su centro de excelencia de IA debe desempeñar un papel fundamental en la implementación de RAG. ¿No tiene CoE? He aquí cómo poner uno en marcha ahora.

Preguntas frecuentes sobre RAG vs. Fine-Tuning

¿La RAG es mejor que el ajuste?

El ajuste del modelo de RAG e IA es diferente, con sus propios beneficios y costos. Ambos son métodos populares para hacer que los modelos de IA generativa sean más útiles, y cada organización debe elegir el método que mejor se adapte a sus necesidades. Otra opción popular es combinar los dos enfoques, llamados RAFT, para la recuperación aumentada de ajuste.

¿Qué es mejor que RAG?

RAG es simplemente una técnica para ayudar a un LLM a ofrecer mejores respuestas al hacer referencia a los datos y documentos de una empresa. Un método llamado GraphRAG ha surgido como una forma de mejorar aún más las respuestas del LLM más allá de lo que una arquitectura RAG puede hacer por sí sola, pero agrega complejidad arquitectónica y los casos de uso populares aún no han surgido.

Ajustar un modelo de IA es otro método que puede ayudar a un LLM a ofrecer respuestas más específicas o matizadas, y se puede combinar con RAG para mejorar aún más el rendimiento del LLM.

¿Se pueden utilizar juntas la RAG y el ajuste fino?

Sí. Este enfoque híbrido ofrece un modelo ajustado en datos de dominio especializados y luego implementado en una arquitectura RAG para que pueda ofrecer la información más reciente o más relevante en sus respuestas.

¿Cuál es la diferencia entre RAG y transferencia de aprendizaje?

RAG mejora las respuestas de un LLM al acceder a una base de conocimientos local y actualizada. El aprendizaje de transferencia mejora las respuestas de un modelo de IA de uso general al acceder a un modelo de IA independiente que se ha ajustado para que funcione en un dominio concreto.