RAG vs. ajuste fino: como escolher

Jeffrey Erickson | Redator Sênior | 21 de novembro de 2024

Os grandes modelos de linguagem, ou LLMs, de uso geral se tornaram populares por sua capacidade de abordar uma ampla variedade de tópicos e escrever trabalhos acadêmicos, notas de agradecimento e muitas outras tarefas. No entanto, no mundo corporativo, esses resultados genéricos não são suficientes. Um LLM que precisa fornecer suporte técnico para um determinado dispositivo, por exemplo, necessita recorrer a conhecimentos específicos da área.

Atualmente, existem duas maneiras de ajudar modelos de IA generativa a fornecer respostas que reflitam esse tipo de especialização: ajuste fino e geração aumentada por recuperação (RAG). Cada uma apresenta benefícios e desafios. Vamos analisar essas opções mais detalhadamente para entender como funcionam e quando utilizá-las.

Principais conclusões

  • Tanto a RAG quanto o ajuste fino tornam os modelos genéricos de IA mais úteis em um campo específico ou para um caso de uso específico.
  • O RAG concede ao LLM acesso aos bancos de dados internos de uma empresa. Isso ajuda o LLM a fornecer respostas mais direcionadas, o que é fundamental para casos de uso que dependem de informações atualizadas.
  • Os usos comuns da RAG incluem suporte técnico, consulta de estoque e recomendações de varejo.
  • O ajuste fino usa uma coleção de dados específicos do domínio para treinar um LLM de propósito geral para uma tarefa específica. Pense em áreas como medicina ou programação, que possuem sua própria lógica e terminologia.
  • O ajuste fino e a RAG podem ser combinados para fornecer ao LLM um profundo conhecimento do assunto e informações atualizadas.

O que é geração aumentada por recuperação (Retrieval-Augmented Generation, RAG)?

RAG, abreviação de geração aumentada por recuperação, é uma estrutura arquitetônica desenvolvida por pesquisadores da Meta para ajudar os modelos de IA de uso geral a fornecer resultados relevantes e úteis às organizações. O RAG faz isso fornecendo a um grande modelo de linguagem, ou LLM, acesso a uma base de conhecimento interna que pode ser usada para aumentar seus dados de treinamento originais. O resultado é um sistema de IA que combina a fluência linguística de um LLM com dados locais para fornecer respostas direcionadas e contextualmente apropriadas. Essa abordagem, diferentemente do ajuste fino de modelos de IA, funciona sem modificar o próprio modelo subjacente.

Quando usar a RAG

Use a RAG quando for importante que as respostas da IA ​​generativa forneçam dados atualizados ou específicos da organização que não faziam parte do treinamento do LLM. Por exemplo, se uma empresa possui um grande conjunto de informações confiáveis ​​sobre seus produtos ou operações diárias, uma arquitetura RAG fornecerá esses dados para complementar as solicitações e respostas que passam pelo LLM, tornando os resultados mais úteis, verificáveis ​​e precisos. Isso pode aprimorar a automação do suporte técnico, a verificação da disponibilidade de produtos no varejo ou até mesmo na área da saúde, permitindo que as observações médicas sejam disponibilizadas rapidamente para pacientes ou outros profissionais de saúde.

Casos de uso da RAG

Os benefícios comuns da RAG em diversos setores incluem recuperação de dados melhor e mais completa, suporte ao cliente aprimorado e a capacidade de gerar conteúdo personalizado. Ao complementar os LLMs com informações atuais, as organizações podem implementar agentes de IA para fornecer respostas contextualmente relevantes e em tempo real às consultas do usuário, minimizando a necessidade de intervenção humana.. A versatilidade da RAG permite que ele se adapte a uma ampla gama de aplicações, incluindo:

  • Business intelligence. As empresas podem usar a RAG para ajudar os modelos de IA generativa a obter dados de mercado relevantes para a geração automatizada de insights e relatórios. Esses dados podem incluir pesquisa de mercado, análise de concorrentes, volume de vendas e feedback de clientes.
  • Recomendações de conteúdo. O RAG pode melhorar os sistemas de recomendação de conteúdo, geralmente em conjunto com bancos de dados vetoriais. O RAG permite que o modelo de IA recupere e analise as avaliações, classificações e descrições de conteúdo do usuário, possibilitando que o sistema gere recomendações personalizadas alinhadas ao prompt do usuário.
  • Verificação de fatos no jornalismo e em outros meios de comunicação. O RAG pode ajudar as organizações a recuperar e comparar documentos rapidamente para verificar alegações em artigos, relatórios ou redes sociais.
  • Diagnóstico clínico. Na área da saúde, a RAG pode ser implementado para auxiliar médicos e outros profissionais clínicos, ajudando no diagnóstico e no planejamento do tratamento. Isso é feito ajudando os modelos de IA a recuperar estudos de casos médicos, artigos de pesquisa ou resultados de ensaios clínicos relevantes para os sintomas ou a saúde de um paciente.
  • Suporte técnico. O RAG pode ser usado para reduzir o tempo de resolução e melhorar a satisfação do usuário quanto ao suporte técnico. O sistema pode recuperar guias de resolução de problemas e documentação relevantes, ou até mesmo analisar tópicos de fóruns e fornecê-los ao LLM para ajudar a resolver problemas do usuário. Além disso, a RAG pode fazer referência a um banco de dados que contém registros de interações recentes de um cliente para um serviço mais personalizado.

O que é ajuste fino?

Fazer o ajuste fino de um modelo de IA generativa significa selecionar um modelo de uso geral, como o Claude 2 da Anthropic, o Command da Cohere ou o Llama 2 da Meta, aplicar ciclos adicionais de treinamento em um conjunto de dados menor e específico do domínio e adaptar os parâmetros do modelo com base nesse treinamento. Isso permite que o modelo tenha melhor desempenho em tarefas específicas, pois foi adaptado às nuances e à terminologia de um domínio específico, como programação ou assistência médica.

Quando usar o ajuste fino

Escolha o ajuste fino quando um LLM precisar ser habilitado em um domínio específico. Com treinamento adicional, um LLM pode compreender melhor as instruções e fornecer resultados que refletem as nuances e a terminologia de uma área específica. Você precisará ter acesso a um grande conjunto de dados ou repositório de documentos selecionados para o processo de treinamento, mas o ajuste fino vale o esforço, pois permite maior controle sobre o estilo, o tom e a maneira do conteúdo gerado. Isso pode trazer resultados positivos nos materiais de marketing ou nas interações com os clientes. O ajuste fino, assim como o método RAG, também pode ser útil na área de medicina, programação e outros domínios altamente especializados.

Casos de uso de ajuste fino

O ajuste fino, processo de adaptação de um modelo geral de IA a uma tarefa ou domínio específico, é uma técnica poderosa que pode melhorar significativamente os resultados para diversas organizações, especialmente em casos onde a personalização e a especialização são fundamentais. Confira alguns casos de uso comuns em que essa técnica pode ser particularmente eficaz:

  • Automação do suporte ao cliente. Ajustar um LLM usando uma grande coleção de dados e documentos sobre os produtos, serviços e operações da sua empresa pode ajudar um LLM a ser um sistema de suporte ao cliente automatizado mais útil. O LLM adaptado entenderá melhor o vocabulário e as nuances nas interações com os clientes e será capaz de responder de forma adequada.
  • Conteúdo educativo. Os LLMs podem ser otimizados com base em materiais educacionais de uma área específica, como história ou gramática. Dessa forma, pode auxiliar na criação de conteúdos de aprendizagem, resumir livros didáticos, gerar questionários para provas e até mesmo oferecer aulas particulares de diferentes matérias.
  • Processamento de informações da área de saúde. Os LLMs podem ser aprimorados com literatura médica, registros de pacientes anonimizados e outros textos e imagens médicas, tornando-os mais úteis para sugerir tratamentos e diagnósticos.

Geração aumentada por recuperação (RAG) versus ajuste fino: principais diferenças

Tanto o ajuste fino quanto a RAG tornam os LLMs de uso geral mais úteis, mas o fazem de maneiras diferentes. Uma analogia simples é que o ajuste fino de um LLM proporciona uma compreensão mais profunda de um domínio específico, como medicina ou educação, enquanto a combinação do LLM com uma arquitetura RAG oferece acesso a dados locais atualizados para suas respostas.

Por que não usá-los em conjunto para obter respostas que sejam ao mesmo tempo precisas e oportunas? É uma tendência cada vez mais popular e até tem sua própria sigla: RAFT, que significa ajuste fino aumentado por recuperação. Com essa abordagem híbrida, um modelo ajustado com dados de domínio especializado é implementado em uma arquitetura RAG, onde utiliza seu conhecimento especializado para recuperar as informações mais relevantes durante a geração de respostas. O resultado são informações altamente precisas, relevantes e contextualizadas.

Discutiremos melhor sobre o RAFT daqui a pouco, mas primeiro vamos entender melhor as duas abordagens.

Ajuste fino

Tanto a RAG quanto o ajuste fino permitem que um LLM vá além das respostas genéricas extraídas de conjuntos de dados de treinamento originais e generalizados. O ajuste fino envolve submeter um LLM a ciclos adicionais de treinamento usando conjuntos de dados específicos para um determinado domínio ou organização.

  • Requisitos
    Isso exige que as equipes de TI e de negócios realizem o trabalho inicial de coletar, limpar e rotular grandes conjuntos de dados para esses novos ciclos de treinamento. O esquema de treinamento em si exige muito processamento, o que requer uma arquitetura avançada de IA de redes neurais apoiada por GPUs suficientes para treinar o LLM em um período razoável.
  • Resultado
    O resultado é um LLM fluente nas informações e na linguagem de um domínio ou caso de negócios específico.
  • Potenciais desvantagens
    Ao contrário de um sistema RAG, o LLM depende inteiramente do conjunto de dados usado para seu regime de treinamento de ajuste fino e não tem acesso a conhecimento externo atualizado. Um LLM ajustado também pode perder, ou "esquecer", alguns dos detalhes mais sutis de seu treinamento original. Por exemplo, pode perder a desenvoltura em conversas do dia a dia ao se aprofundar em uma especialidade específica, como a medicina. Talvez você conheça médicos que sofrem desse mesmo problema.

RAG

A RAG também altera as respostas dos LLMs, mas não modifica o modelo subjacente. Em vez disso, um sistema RAG utiliza um banco de dados local ou uma coleção selecionada de documentos para orientar as respostas de um LLM, frequentemente com detalhes atualizados.

  • Pontos fortes
    A arquitetura RAG é considerada superior ao ajuste fino em termos de segurança e privacidade de dados, pois os dados podem ser armazenados em um ambiente seguro com controles de acesso rigorosos, garantindo que dados privados não sejam refletidos nas respostas da IA.
  • Pontos fracos
    Uma desvantagem dessa abordagem em comparação com o ajuste fino é que os modelos de linguagem não são treinados para precisão em nenhum domínio específico. Eles funcionam a partir do conhecimento geral do treinamento do LLM.

Comparação de conjuntos de habilidades e custos

  • Conjuntos de habilidades
    Em termos de habilidades, embora a RAG seja mais simples de implementar, a RAG e o ajuste fino exigem conhecimentos complementares em programação e gerenciamento de dados. Além disso, uma equipe envolvida no ajuste fino precisa de mais experiência em processamento de linguagem natural (NLP), deep learning e configuração de modelos.
  • Tempo e custos
    O ajuste fino exige mais trabalho inicial, enquanto a RAG requer mais recursos em tempo de execução. O ajuste fino significa vários ciclos de treinamento com uso intensivo de computação antes que o LLM possa ser implementado, tornando-o um projeto mais caro em comparação com uma arquitetura RAG. No entanto, uma vez que um LLM ajustado é colocado em serviço, a arquitetura de tempo de execução é bastante simples. Nesse ponto, um sistema RAG adiciona uma camada adicional de complexidade ao LLM, exigindo que uma equipe mantenha um banco de dados atualizado e recursos computacionais adicionais para cada prompt.

Abordagem híbrida: RAFT

As limitações (e as vantagens) dessas duas abordagens, naturalmente, levaram a uma tendência crescente de combinar seus pontos fortes. O resultado é a abordagem híbrida chamada RAFT.

Como escolher entre RAG e ajuste fino

A escolha entre usar uma arquitetura RAG ou ajuste fino depende dos recursos disponíveis e de como você usará seu LLM. Conforme observado na tabela abaixo, a maioria dos casos de uso se beneficiará do esforço de combinar as duas abordagens. Para a maioria das empresas, depois de investirem no ajuste fino, a RAG é uma adição natural. Mas aqui estão seis perguntas a serem feitas para determinar qual priorizar:

  1. As respostas devem incluir dados locais e muito atuais? Informar as respostas do LLM com seus próprios dados atualizados é um ponto forte da RAG e o motivo pelo qual ganhou popularidade rapidamente.
  2. O LLM trabalha em um setor especializado? O ajuste fino permite que um LLM interprete melhor as solicitações e forneça respostas na linguagem exclusiva de uma tarefa ou campo de operações específico, como assistência médica.
  3. A privacidade e a segurança dos dados são fundamentais? Uma arquitetura RAG permite que uma organização mantenha dados confidenciais em um banco de dados local bem protegido.
  4. O tom e a maneira de responder são importantes? O ajuste fino permite que um LLM ofereça respostas na linguagem especializada preferida por uma organização ou um campo específico. Se clientes, consumidores ou parceiros consultarem o LLM, o ajuste fino adiciona um tom profissional.
  5. Os recursos de runtime são limitados? Um LLM ajustado não requer mais recursos de tempo de execução do que um LLM de uso geral. O RAG é mais complexo, exigindo que o LLM consulte bancos de dados locais para aumentar as respostas. Isso adiciona sobrecarga.
  6. Há acesso à infraestrutura de computação e conjuntos de habilidades de IA? O ajuste fino de um LLM requer ambos. A RAG precisa de recursos de runtime e infraestrutura de dados, mas menos habilidades de IA.
Requisitos de caso de uso RAG Ajuste RAFT
As respostas devem incluir informações locais e atualizadas.
sim
não
sim
As respostas devem incluir um alto nível de explicabilidade.
sim
não
sim
As respostas devem refletir o profundo conhecimento de domínio de uma organização.
sim
sim
sim
A organização tem acesso a uma avançada rede neural e recursos de GPU para treinamento de IA.
não
sim
sim
As respostas devem refletir o tom e a linguagem de marketing da organização.
não
sim
sim
A organização possui uma coleção grande, bem organizada e atualizada de documentos para a IA usar e citar em suas respostas.
sim
não
sim
O sistema de IA tem acesso a recursos de runtime limitados.
não
sim
sim
A organização possui um amplo conjunto de dados selecionados e um repositório de documentos para treinar e aprimorar uma IA.
sim
não
sim

Obtenha mais valor comercial com IA generativa na Oracle Cloud Infrastructure

Quer você escolha RAG, ajuste fino ou ambos, a Oracle se especializa em ajudar organizações como a sua a aumentar a produtividade com a Oracle Cloud Infrastructure (OCI) Generative AI, um serviço totalmente gerenciado que inclui o poder da OCI e uma seleção de LLMs de código aberto ou proprietários.

Facilitamos a combinação do seu LLM com RAG para que você possa obter respostas atualizadas com base em suas diversas bases de conhecimento. Quando chegar a hora de executar seu regime de ajuste fino, a infraestrutura da Oracle AI é uma ótima opção. Você encontrará superclusters que escalam até 65.536 GPUs mais do que o suficiente para executar suas cargas de trabalho de treinamento e inferência mais exigentes, como respostas de LLM, visão computacional e análise preditiva.

Os LLMs de uso geral continuam melhorando, com um fluxo constante de novas versões chegando de empresas como Anthropic, Cohere, Google, Meta e muitos outras. Mas, por mais habilidosos que esses modelos de IA sejam com a linguagem humana, eles sempre precisarão de uma forma de conectar essa capacidade às necessidades específicas dos casos de uso de negócios. O ajuste fino e a RAG são atualmente os dois melhores métodos para fazer isso. É provável que eles continuem a evoluir à medida que os modelos de IA, o hardware e as arquiteturas de dados avançam.

O seu centro de excelência em IA deve desempenhar um papel fundamental na implementação da RAG. Ainda não tem um centro de excelência? Saiba como colocar um em funcionamento agora.

Perguntas frequentes sobre RAG vs. ajuste fino

A RAG é melhor que o ajuste fino?

A RAG e o ajuste fino de modelos de IA são diferentes, com seus próprios benefícios e custos. Ambos são métodos populares para tornar os modelos de IA generativa mais úteis, e cada empresa deve escolher o método que melhor se adapta às suas necessidades. Outra opção popular é combinar as duas abordagens, chamada RAFT, para ajuste fino aumentado por recuperação.

O que é melhor que a RAG?

A RAG é simplesmente uma técnica para ajudar um LLM a fornecer melhores respostas, referenciando os dados e documentos de uma empresa. Um método chamado GraphRAG surgiu como uma forma de aprimorar ainda mais as respostas do LLM, além do que uma arquitetura RAG pode fazer sozinha, mas adiciona complexidade arquitetônica e casos de uso populares ainda não surgiram.

O ajuste fino de um modelo de IA é outro método que pode ajudar um LLM a oferecer respostas mais direcionadas ou com nuances, e pode ser combinado com a RAG para melhorar ainda mais o desempenho do LLM.

A RAG e o ajuste fino podem ser usados juntos?

Sim. Essa abordagem híbrida oferece um modelo com ajuste fino em dados de domínio especializados e, em seguida, implementado em uma arquitetura RAG para que possa oferecer as informações mais recentes ou mais relevantes em suas respostas.

Qual é a diferença entre RAG e aprendizado por transferência?

A RAG melhora as respostas de um LLM acessando uma base de conhecimento local e atualizada. O aprendizado por transferência melhora as respostas de um modelo de IA de uso geral acessando um modelo de IA separado que foi ajustado para funcionar em um domínio específico.