Jeffrey Erickson | Escritor sénior | 21 de noviembre de 2024
Los grandes modelos de lenguaje de propósito general, o LLM, se han vuelto populares entre el público porque pueden discutir una amplia variedad de temas y escribir documentos de términos, notas de agradecimiento y muchas otras tareas. En los negocios, sin embargo, estos resultados genéricos no lo harán. Un LLM que se espera proporcione soporte técnico para un gadget en particular, por ejemplo, debe basarse en conocimientos específicos del dominio.
Actualmente hay dos formas de ayudar a los modelos de IA generativa a ofrecer respuestas que reflejen ese tipo de experiencia: ajustar y recuperar la generación aumentada, o RAG. Cada uno viene con beneficios y desafíos. Echemos un vistazo más profundo a estas opciones para comprender cómo funcionan y cuándo usarlas.
Conclusiones clave
RAG, abreviatura de generación aumentada de recuperación, es un marco arquitectónico desarrollado por investigadores de Meta para ayudar a los modelos de IA de propósito general a ofrecer resultados que sean relevantes y útiles para las organizaciones. RAG hace esto dando a un modelo de lenguaje grande, o LLM, acceso a una base de conocimientos interna que puede usar para aumentar sus datos de entrenamiento originales. El resultado es un sistema de IA que combina la fluidez lingüística de un LLM con datos locales para ofrecer respuestas específicas y contextualmente adecuadas. Este enfoque, a diferencia del ajuste del modelo de IA, funciona sin modificar el modelo subyacente en sí.
Utiliza la RAG cuando sea importante que las respuestas de IA generativa proporcionen datos actualizados o específicos de la organización que no formaran parte del entrenamiento del LLM. Por ejemplo, si una empresa tiene un gran corpus de información confiable sobre sus productos u operaciones diarias, una arquitectura RAG proporcionará esos datos para aumentar las peticiones de datos y las respuestas que pasan por el LLM, haciendo que las salidas sean más útiles, verificables y precisas. Esto puede mejorar la automatización del servicio de ayuda, las comprobaciones de disponibilidad de productos en el sector minorista o incluso la atención médica, ya que las notas de los médicos se pueden poner rápidamente a disposición de los pacientes u otros médicos.
Las ventajas comunes de la RAG en todos los sectores incluyen una recuperación de datos mejor y más completa, un soporte al cliente mejorado y la capacidad de generar contenido personalizado. Al complementar los LLM con información actual, las organizaciones pueden implementar agentes de IA para proporcionar respuestas en tiempo real y contextualmente relevantes a las consultas de los usuarios, minimizando la necesidad de intervención humana. La versatilidad de RAG le permite adaptarse a una amplia gama de aplicaciones, incluyendo las siguientes:
Ajustar un modelo de IA generativa significa tomar un modelo de propósito general, como Claude 2 de Anthropic, Command de Cohere o Llama 2 de Meta; darle rondas adicionales de entrenamiento en un conjunto de datos más pequeño y específico del dominio; y ajustar los parámetros del modelo en función de este entrenamiento. Este ajuste ayuda al modelo a realizar mejor tareas específicas porque se ha adaptado a los matices y la terminología de un dominio en particular, como la codificación o la atención médica.
Elige el ajuste cuando un LLM necesita ser definido en un dominio en particular. Con una formación adicional, un LLM puede comprender mejor las peticiones de datos y ofrecer salidas que reflejen los matices y la terminología de un campo en particular. Necesitará acceso a un gran conjunto de datos o almacén de documentos seleccionados para el proceso de entrenamiento, pero el ajuste vale la pena porque permite un mayor control sobre el estilo, el tono y la forma de contenido generado. Eso puede dar sus frutos en sus materiales de marketing o en las interacciones con los clientes. El ajuste fino, como RAG, también puede ser útil en medicina, codificación y otros dominios altamente especializados.
El ajuste, el proceso de adaptación de un modelo de IA general a una tarea o dominio específico, es una técnica poderosa que puede mejorar significativamente los resultados para una variedad de organizaciones, especialmente en casos en los que la personalización y la especialización son clave. Estos son algunos casos de uso comunes en los que puede ser particularmente eficaz:
Tanto el ajuste como la RAG hacen que los LLM de uso general sean más útiles, pero lo hacen de diferentes maneras. Una analogía simple es que el ajuste de un LLM le da una comprensión más profunda de un dominio en particular, como la medicina o la educación, mientras que la combinación del LLM con una arquitectura RAG le da acceso a datos locales actualizados para sus respuestas.
¿Por qué no usarlos juntos para obtener respuestas que sean matizadas y oportunas? Es una tendencia creciente e incluso viene con su propio acrónimo: RAFT, para la recuperación aumentada de ajuste. Con este enfoque híbrido, un modelo ajustado en datos de dominio especializados se implementa en una arquitectura RAG, donde utiliza su experiencia en el dominio para recuperar la información más relevante durante la generación de respuestas. El resultado son salidas muy precisas, relevantes y conscientes del contexto.
Vamos a discutir RAFT un poco más, pero primero vamos a obtener una mejor comprensión de los dos enfoques.
Tanto la RAG como el ajuste ayudan a un LLM a ir más allá de las respuestas genéricas extraídas de sus conjuntos de datos de entrenamiento originales y generalizados. El ajuste implica poner un LLM a través de rondas adicionales de entrenamiento utilizando conjuntos de datos que son específicos de un dominio u organización en particular.
RAG también altera las respuestas de los LLM, pero no cambia el modelo subyacente. En su lugar, un sistema RAG utiliza una base de datos local o una recopilación seleccionada de documentos para informar las respuestas de un LLM, a menudo con detalles actualizados.
Las limitaciones y beneficios de estos dos enfoques han llevado, naturalmente, a una tendencia creciente a combinar sus fortalezas. El resultado es el enfoque híbrido llamado RAFT.
La elección entre utilizar una arquitectura RAG o un régimen de ajuste se reduce a los recursos que tiene y cómo utilizará su LLM. Como se indica en la tabla siguiente, la mayoría de los casos de uso se beneficiarán del esfuerzo por combinar los dos enfoques: para la mayoría de las empresas, una vez que hayan realizado el esfuerzo de ajustar, la RAG es una adición natural. Pero aquí hay seis preguntas que hacer para determinar cuál priorizar:
| Requisitos de caso de uso | RAG | Ajuste | RAFT |
|---|---|---|---|
| Las respuestas deben incluir información local y actualizada. | sí |
no |
sí |
| Las respuestas deben incluir un alto nivel de explicabilidad. | sí |
no |
sí |
| Las respuestas deben reflejar el profundo conocimiento del dominio de una organización. | sí |
sí |
sí |
| La organización tiene acceso a una poderosa red neuronal y recursos de GPU para el entrenamiento de IA. | no |
sí |
sí |
| Las respuestas deben reflejar el tono y el lenguaje de marketing de una organización. | no |
sí |
sí |
| La organización posee una colección grande, bien organizada y actualizada de documentos para que la IA pueda extraer y citar en sus respuestas. | sí |
no |
sí |
| El sistema de IA tiene acceso a recursos de tiempo de ejecución limitados. | no |
sí |
sí |
| La organización posee un gran conjunto de datos y un almacén de documentos seleccionados para entrenar y ajustar una IA. | sí |
no |
sí |
Ya sea que elijas RAG, ajuste o ambos, Oracle se especializa en ayudar a organizaciones como la tuya a aumentar la productividad con Oracle Cloud Infrastructure (OCI) Generative AI, un servicio totalmente gestionado que incluye la potencia de OCI y una selección de LLM de código abierto o propietarios.
Hacemos que sea fácil combinar su LLM con RAG para que puedas obtener respuestas actualizadas basadas en tus diversas bases de conocimientos. Cuando llega el momento de ejecutar tu régimen de ajuste, la infraestructura de Oracle AI es una gran opción. Encontrarás superclusters que escalan hasta 65,536 GPU, más que suficiente para ejecutar tus cargas de trabajo de entrenamiento e inferencia más exigentes, como respuestas de LLM, visión por computadora y análisis predictivos.
Los LLM de propósito general continúan mejorando, con un flujo constante de nuevas versiones que llegan de la talla de Anthropic, Cohere, Google, Meta y muchos otros. Pero no importa cuán hábilmente estos modelos de IA manejen el lenguaje humano, siempre necesitarán una forma de conectar ese conjunto de habilidades con las necesidades específicas de los casos de uso empresariales. El ajuste y la RAG son actualmente los dos mejores métodos para hacer esto. Busca que sigan evolucionando a medida que avanzan los modelos de IA, el hardware y las arquitecturas de datos.
Su centro de excelencia de IA debe desempeñar un papel fundamental en la implementación de RAG. ¿No tiene CoE? He aquí cómo poner uno en marcha ahora.
¿La RAG es mejor que el ajuste?
El ajuste del modelo de RAG e IA es diferente, con sus propios beneficios y costos. Ambos son métodos populares para hacer que los modelos de IA generativa sean más útiles, y cada organización debe elegir el método que mejor se adapte a sus necesidades. Otra opción popular es combinar los dos enfoques, llamados RAFT, para la recuperación aumentada de ajuste.
¿Qué es mejor que RAG?
RAG es simplemente una técnica para ayudar a un LLM a ofrecer mejores respuestas al hacer referencia a los datos y documentos de una empresa. Un método llamado GraphRAG ha surgido como una forma de mejorar aún más las respuestas del LLM más allá de lo que una arquitectura RAG puede hacer por sí sola, pero agrega complejidad arquitectónica y los casos de uso populares aún no han surgido.
Ajustar un modelo de IA es otro método que puede ayudar a un LLM a ofrecer respuestas más específicas o matizadas, y se puede combinar con RAG para mejorar aún más el rendimiento del LLM.
¿Se pueden utilizar juntas la RAG y el ajuste fino?
Sí. Este enfoque híbrido ofrece un modelo ajustado en datos de dominio especializados y luego implementado en una arquitectura RAG para que pueda ofrecer la información más reciente o más relevante en sus respuestas.
¿Cuál es la diferencia entre RAG y transferencia de aprendizaje?
RAG mejora las respuestas de un LLM al acceder a una base de conocimientos local y actualizada. El aprendizaje de transferencia mejora las respuestas de un modelo de IA de uso general al acceder a un modelo de IA independiente que se ha ajustado para que funcione en un dominio concreto.
