RAG vs. Ajuste fino: como escolher

Jeffrey Erickson | Redator Sênior | 21 de novembro de 2024

Grandes modelos de linguagem de uso geral, ou LLMs, tornaram-se populares com o público porque podem discutir uma ampla variedade de tópicos e escrever artigos de termo, notas de agradecimento e muitas outras tarefas. Nos negócios, no entanto, essas saídas genéricas não são suficientes. Um LLM que deve fornecer suporte técnico para um gadget específico, por exemplo, precisa se basear em conhecimento específico de domínio.

Atualmente, existem duas maneiras de ajudar os modelos de IA generativa a fornecer respostas que refletem esse tipo de experiência: ajuste fino e geração aumentada de recuperação, ou RAG. Cada um deles traz benefícios e desafios. Vamos dar uma olhada mais profunda nessas opções para entender como elas funcionam e quando usá-las.

Principais conclusões

  • Tanto a RAG quanto o ajuste fino tornam os modelos genéricos de IA mais úteis em um campo específico ou para um caso de uso específico.
  • A RAG dá a um LLM acesso aos armazenamentos de dados internos de uma empresa, o que ajuda o LLM a fornecer respostas mais direcionadas, o que é fundamental para casos de uso que dependem de informações atualizadas.
  • Os usos comuns da RAG incluem suporte técnico, pesquisa de estoque e recomendações de varejo.
  • O ajuste fino usa um conjunto de dados específicos do domínio para treinar um LLM de uso geral para uma tarefa específica. Pense na medicina ou na codificação, que têm sua própria lógica e linguagem.
  • Ajuste fino e RAG podem ser combinados para fornecer um LLM conhecimento de domínio forte e informações atualizadas.

O que é geração aumentada de recuperação (Retrieval-Augmented Generation, RAG)?

RAG, abreviação de geração aumentada de recuperação, é uma estrutura arquitetônica desenvolvida por pesquisadores da Meta para ajudar os modelos de IA de uso geral a fornecer resultados relevantes e úteis às organizações. A RAG faz isso dando a um grande modelo de linguagem, ou LLM, acesso a uma base de conhecimento interna que pode ser usada para aumentar seus dados de treinamento originais. O resultado é um sistema de IA que combina a fluência da linguagem de um LLM com dados locais para fornecer respostas direcionadas e contextualmente apropriadas. Essa abordagem, ao contrário do ajuste fino do modelo de IA, funciona sem modificar o próprio modelo subjacente.

Quando usar RAG

Use a RAG quando for importante para respostas de IA generativa fornecer dados atualizados ou específicos da organização que não faziam parte do treinamento do LLM. Por exemplo, se uma empresa tiver um grande corpus de informações confiáveis sobre seus produtos ou operações diárias, uma arquitetura de RAG fornecerá esses dados para aumentar os prompts e as respostas que passam pelo LLM, tornando as saídas mais úteis, verificáveis e precisas. Isso pode melhorar a automação do help desk, as verificações de disponibilidade de produtos no varejo ou até mesmo a assistência médica, pois as notas dos médicos podem ser rapidamente disponibilizadas para pacientes ou outros médicos.

Casos de uso de RAG

Os benefícios comuns da RAG em todos os setores incluem recuperação de dados melhor e mais completa, suporte aprimorado ao cliente e a capacidade de gerar conteúdo personalizado. Ao complementar os LLMs com informações atuais, as organizações podem implementar agentes de IA para fornecer respostas contextualmente relevantes e em tempo real às consultas do usuário, minimizando a necessidade de intervenção humana. A versatilidade da RAG permite adaptar-se a uma vasta gama de aplicações, incluindo as seguintes:

  • Inteligência de negócios. As empresas podem usar a RAG para ajudar os modelos de IA generativa a obter dados de mercado relevantes para a produção automatizada de insights e relatórios. Esses dados podem incluir pesquisa de mercado, análise de concorrentes, volume de vendas e feedback do cliente.
  • Recomendações de conteúdo. A RAG pode melhorar os sistemas de recomendação de conteúdo, geralmente em conjunto com bancos de dados vetoriais. A RAG permite que o modelo de IA recupere e analise as avaliações, classificações e descrições de conteúdo do usuário que permitem ao sistema gerar recomendações personalizadas alinhadas ao prompt do usuário.
  • Verificação de fatos em jornalismo e outros meios de comunicação. A RAG pode ajudar as organizações a recuperar rapidamente documentos de referência cruzada para verificar reivindicações feitas em artigos, relatórios ou mídias sociais.
  • Diagnóstico médico. Na área da saúde, a RAG pode ser aplicada para apoiar médicos e outros médicos, auxiliando no diagnóstico e no planejamento do tratamento. Ela faz isso ajudando os modelos de IA a recuperar estudos de caso médicos, trabalhos de pesquisa ou resultados de ensaios clínicos relevantes para os sintomas ou condições de um paciente.
  • Suporte técnico. A RAG pode ser usado para ajudar a reduzir o tempo de resolução e melhorar a satisfação do usuário no suporte técnico. O sistema pode recuperar guias e documentação de solução de problemas relevantes ou até mesmo verificar threads do fórum e fornecê-los ao LLM para ajudar a resolver problemas do usuário. Além disso, a RAG pode fazer referência a um banco de dados que contém registros de interações recentes de um cliente para um serviço mais personalizado e pessoal.

O que é o ajuste fino?

Ajustar um modelo de IA generativa significa adotar um modelo de uso geral, como Claude 2 da Anthropic, Command da Cohere ou Llama 2 da Meta; dar-lhe rodadas adicionais de treinamento em um conjunto de dados menor e específico do domínio; e ajustar os parâmetros do modelo com base nesse treinamento. Esse ajuste ajuda o modelo a ter um melhor desempenho em tarefas específicas porque foi adaptado às nuances e terminologia de um domínio específico, como codificação ou assistência médica.

Quando usar o ajuste fino

Escolha o ajuste fino quando um LLM precisar ser habilitado em um domínio específico. Com treinamento extra, um LLM pode entender melhor os prompts e fornecer resultados que refletem as nuances e a terminologia de um campo específico. Você precisará acessar um grande conjunto de dados ou um depósito de documentos selecionados para o processo de treinamento, mas o ajuste fino vale o esforço porque permite maior controle sobre o estilo, o tom e a maneira do conteúdo gerado. Isso pode valer a pena em seus materiais de marketing ou interações com o cliente. O ajuste fino, como a RAG, também pode ser útil em medicina, codificação e outros domínios altamente especializados.

Casos de uso de ajuste fino

O ajuste fino, o processo de adaptação de um modelo geral de IA a uma tarefa ou domínio específico, é uma técnica poderosa que pode melhorar significativamente os resultados para uma variedade de organizações, especialmente nos casos em que a personalização e a especialização são fundamentais. Aqui estão alguns casos de uso comuns em que pode ser particularmente eficaz:

  • Automação do suporte ao cliente. Ajustar um LLM usando uma grande coleção de dados e documentos sobre os produtos, serviços e operações da sua empresa pode ajudar um LLM a ser um sistema de suporte ao cliente automatizado mais útil. O LLM afinado entenderá melhor o vocabulário e as nuances nas interações com os clientes e será capaz de responder adequadamente.
  • Conteúdo educativo. Os LLMs podem ser ajustados em materiais educacionais em um domínio específico, como história ou gramática. O LLM pode então ajudar a criar novos conteúdos de aprendizagem, resumir livros didáticos, gerar perguntas de quiz, até mesmo fornecer sessões de tutoria em várias áreas temáticas.
  • Processamento de informações médicas. Os LLMs podem ser ajustados com literatura médica, registros de pacientes anônimos e outros textos e imagens médicas, tornando-os mais úteis para sugerir tratamentos e diagnósticos.

Geração aumentada de recuperação (RAG) versus ajuste fino: principais diferenças

Tanto o ajuste fino quanto a RAG tornam os LLMs de uso geral mais úteis, mas eles fazem isso de maneiras diferentes. Uma analogia simples é que o ajuste fino de um LLM lhe dá uma compreensão mais profunda de um domínio específico, como medicina ou educação, ao mesmo tempo em que combina o LLM com uma arquitetura RAG lhe dá acesso a dados locais atualizados para suas respostas.

Por que não usá-los juntos para obter respostas que são sutis e oportunas? É uma tendência crescente e até vem com seu próprio acrônimo: RAFT, para ajuste fino aumentado de recuperação. Com essa abordagem híbrida, um modelo ajustado em dados de domínio especializados é então implantado em uma arquitetura RAG, onde usa sua experiência de domínio para recuperar as informações mais relevantes durante a geração de resposta. O resultado é saídas altamente precisas, relevantes e sensíveis ao contexto.

Vamos discutir o RAFT um pouco mais, mas primeiro vamos entender melhor as duas abordagens.

Ajuste fino

Tanto a RAG quanto o ajuste fino ajudam um LLM a ir além das respostas genéricas extraídas de seus conjuntos de dados de treinamento originais e generalizados. O ajuste fino envolve colocar um LLM em rodadas extras de treinamento usando conjuntos de dados específicos de um determinado domínio ou organização.

  • Requisitos
    Isso exige que as equipes de TI e de negócios trabalhem com antecedência para coletar, limpar e rotular grandes conjuntos de dados para essas novas rodadas de treinamento. O próprio regime de treinamento exige muita computação, exigindo uma arquitetura avançada de IA de redes neurais apoiadas por GPUs suficientes para treinar o LLM em um período razoável de tempo.
  • Resultado
    O resultado é um LLM que é fluente nas informações e na linguagem de um domínio ou caso de negócios específico.
  • Potenciais desvantagens
    Ao contrário de um sistema de RAG, o LLM depende totalmente do conjunto de dados usado para seu regime de treinamento de ajuste fino e não tem acesso a conhecimento externo atualizado. Um LLM afinado também pode perder, ou "esquecer", alguns dos melhores pontos de seu treinamento original. Por exemplo, pode perder a delicadeza na conversa geral à medida que se torna imerso em uma especialidade específica, como a medicina. Talvez você tenha conhecido médicos que sofrem esse mesmo destino.

RAG

A RAG também altera as respostas dos LLMs, mas não altera o modelo subjacente. Em vez disso, um sistema RAG usa um banco de dados local ou uma coleção de documentos selecionados para informar as respostas de um LLM, geralmente com detalhes atualizados.

  • Pontos fortes
    A arquitetura de RAG é considerada superior ao ajuste fino em termos de segurança e privacidade de dados porque os dados podem ser armazenados em um ambiente seguro com controles de acesso rigorosos, ajudando a garantir que os dados privados não sejam refletidos nas respostas de IA.
  • Pontos fracos
    Um ponto fraco dessa abordagem em comparação com o ajuste fino é que os modelos de linguagem não são treinados para precisão em nenhum domínio específico; eles estão trabalhando com o conhecimento geral do treinamento do LLM.

Comparação de conjuntos de habilidades e custos

  • Conjuntos de habilidades
    Em termos de conjuntos de habilidades, enquanto a RAG é mais simples de implementar, a RAG e o ajuste fino exigem experiência sobreposta em codificação e gerenciamento de dados. Além disso, no entanto, uma equipe envolvida no ajuste fino precisa de mais experiência em processamento de linguagem natural (NLP), aprendizado profundo e configuração do modelo.
  • Tempo e custo
    O ajuste fino requer mais trabalho inicial, enquanto a RAG requer mais recursos no tempo de execução. O ajuste fino significa rodadas de treinamento com uso intensivo de computação antes que o LLM possa ser implantado, tornando-o um projeto mais caro em comparação com uma arquitetura RAG. Uma vez que um LLM afinado é colocado em serviço, no entanto, a arquitetura de tempo de execução é bastante simples. Neste ponto, um sistema RAG adiciona uma camada adicional de complexidade ao LLM, exigindo que uma equipe mantenha um banco de dados atualizado e recursos computacionais adicionais para cada prompt.

Abordagem híbrida: RAFT

As limitações – e os benefícios – dessas duas abordagens levaram, naturalmente, a uma tendência crescente de combinar seus pontos fortes. O resultado é a abordagem híbrida chamada RAFT.

Como escolher entre RAG e ajuste fino

A escolha entre usar uma arquitetura RAG ou um regime de ajuste fino se resume aos recursos que você tem e como você usará seu LLM. Conforme observado na tabela abaixo, a maioria dos casos de uso se beneficiará do esforço para combinar as duas abordagens - para a maioria das empresas, uma vez que elas se esforçaram para ajustar, a RAG é uma adição natural. Mas aqui estão seis perguntas a serem feitas para determinar qual priorizar:

  1. As respostas devem incluir dados locais e muito atuais? Informar as respostas do LLM com seus próprios dados atualizados é um ponto forte da RAG e por que ela rapidamente ganhou popularidade.
  2. O LLM trabalha em um setor especializado? O ajuste fino permite que um LLM interprete melhor os prompts e forneça respostas na linguagem exclusiva de uma determinada tarefa ou campo de operações, como assistência médica.
  3. A privacidade e a segurança dos dados são fundamentais? Uma arquitetura RAG permite que uma organização mantenha dados confidenciais em um banco de dados local bem protegido.
  4. O tom e a forma de resposta são importantes? O ajuste fino permite que um LLM ofereça respostas no idioma especializado preferido por uma organização ou um campo específico. Se clientes, clientes de varejo ou parceiros consultarem o LLM, o ajuste fino adicionará um tom profissional.
  5. Os recursos de runtime são limitados? Um LLM ajustado não requer mais recursos de tempo de execução do que um LLM de uso geral. A RAG é mais complexa, exigindo que o LLM consulte bancos de dados locais para aumentar as respostas. Isso adiciona sobrecarga.
  6. Há acesso à infraestrutura de computação e aos conjuntos de habilidades de IA? O ajuste fino de um LLM requer os dois. A RAG precisa de recursos de tempo de execução e infraestrutura de dados, mas menos habilidades de IA.
Requisitos de caso de uso RAG Ajuste RAFT
As respostas devem incluir informações locais e atualizadas.
sim
não
sim
As respostas devem incluir um alto nível de explicabilidade.
sim
não
sim
As respostas devem refletir o profundo conhecimento de domínio de uma organização.
sim
sim
sim
A organização tem acesso a uma poderosa rede neural e recursos de GPU para treinamento de IA.
não
sim
sim
As respostas devem refletir o tom e a linguagem de marketing de uma organização.
não
sim
sim
A organização possui uma grande coleção de documentos, bem organizados e atualizados para a IA extrair e citar em suas respostas.
sim
não
sim
O sistema de IA tem acesso a recursos de runtime limitados.
não
sim
sim
A organização possui um grande conjunto de dados e armazenamento de documentos selecionados para treinar e ajustar uma IA.
sim
não
sim

Obtenha mais valor comercial da IA generativa com a Oracle Cloud Infrastructure

Quer você escolha RAG, ajuste fino ou ambos, a Oracle se especializa em ajudar organizações como a sua a obter ganhos de produtividade com a Oracle Cloud Infrastructure (OCI) Generative AI, um serviço totalmente gerenciado que inclui o poder da OCI e uma escolha de LLMs de código aberto ou proprietários.

Facilitamos a combinação do seu LLM com a RAG para que você possa obter respostas atualizadas baseadas em suas diversas bases de conhecimento. Quando é hora de executar seu regime de ajuste fino, a infraestrutura da Oracle AI é uma ótima opção. Você encontrará superclusters que escalam até 65.536 GPUs - mais do que o suficiente para executar suas cargas de trabalho de treinamento e inferência mais exigentes, como respostas de LLM, visão computacional e análise preditiva.

LLMs de uso geral continuam a melhorar, com um fluxo constante de novas versões como Anthropic, Cohere, Google, Meta e muitos outros. Mas não importa o quão habilmente esses modelos de IA lidam com a linguagem humana, eles sempre precisarão de uma maneira de conectar esse conjunto de habilidades às necessidades específicas de casos de uso de negócios. O ajuste fino e a RAG são atualmente os dois melhores métodos para fazer isso. Procure que eles continuem evoluindo à medida que os modelos de IA, hardware e arquiteturas de dados avançam.

O seu centro de excelência em IA deve desempenhar um papel fundamental na implantação da RAG. Não tem um CoE? Saiba como colocar um em funcionamento agora.

Perguntas frequentes sobre RAG vs. ajuste fino

A RAG é melhor do que o ajuste fino?

O ajuste fino e RAG do modelo de IA é diferente, com seus próprios benefícios e custos. Ambos são métodos populares de tornar os modelos de IA generativa mais úteis, e cada organização deve escolher o método que melhor se adapte às suas necessidades. Outra opção popular é combinar as duas abordagens, chamadas RAFT, para ajuste fino aumentado de recuperação.

O que é melhor que a RAG?

A RAG é simplesmente uma técnica para ajudar um LLM a fornecer melhores respostas, referenciando os dados e documentos de uma empresa. Um método chamado GraphRAG surgiu como uma maneira de aprimorar ainda mais as respostas de LLM além do que uma arquitetura RAG pode fazer por conta própria, mas acrescenta complexidade arquitetônica e casos de uso populares ainda não surgiram.

Ajustar um modelo de IA é outro método que pode ajudar um LLM a oferecer respostas mais direcionadas ou diferenciadas, e pode ser combinado com a RAG para melhorar ainda mais o desempenho do LLM.

A RAG e o ajuste fino podem ser usados juntos?

Sim. Essa abordagem híbrida oferece um modelo ajustado em dados de domínio especializados e, em seguida, implantado em uma arquitetura RAG para que possa oferecer as informações mais recentes ou mais relevantes em suas respostas.

Qual é a diferença entre RAG e aprendizagem de transferência?

A RAG melhora as respostas de um LLM acessando uma base de conhecimento local e atualizada. A aprendizagem por transferência melhora as respostas de um modelo de IA de uso geral acessando um modelo de IA separado que foi ajustado para funcionar em um domínio específico.