Jeffrey Erickson | Redator Sênior | 21 de novembro de 2024
Grandes modelos de linguagem de uso geral, ou LLMs, tornaram-se populares com o público porque podem discutir uma ampla variedade de tópicos e escrever artigos de termo, notas de agradecimento e muitas outras tarefas. Nos negócios, no entanto, essas saídas genéricas não são suficientes. Um LLM que deve fornecer suporte técnico para um gadget específico, por exemplo, precisa se basear em conhecimento específico de domínio.
Atualmente, existem duas maneiras de ajudar os modelos de IA generativa a fornecer respostas que refletem esse tipo de experiência: ajuste fino e geração aumentada de recuperação, ou RAG. Cada um deles traz benefícios e desafios. Vamos dar uma olhada mais profunda nessas opções para entender como elas funcionam e quando usá-las.
Principais conclusões
RAG, abreviação de geração aumentada de recuperação, é uma estrutura arquitetônica desenvolvida por pesquisadores da Meta para ajudar os modelos de IA de uso geral a fornecer resultados relevantes e úteis às organizações. A RAG faz isso dando a um grande modelo de linguagem, ou LLM, acesso a uma base de conhecimento interna que pode ser usada para aumentar seus dados de treinamento originais. O resultado é um sistema de IA que combina a fluência da linguagem de um LLM com dados locais para fornecer respostas direcionadas e contextualmente apropriadas. Essa abordagem, ao contrário do ajuste fino do modelo de IA, funciona sem modificar o próprio modelo subjacente.
Use a RAG quando for importante para respostas de IA generativa fornecer dados atualizados ou específicos da organização que não faziam parte do treinamento do LLM. Por exemplo, se uma empresa tiver um grande corpus de informações confiáveis sobre seus produtos ou operações diárias, uma arquitetura de RAG fornecerá esses dados para aumentar os prompts e as respostas que passam pelo LLM, tornando as saídas mais úteis, verificáveis e precisas. Isso pode melhorar a automação do help desk, as verificações de disponibilidade de produtos no varejo ou até mesmo a assistência médica, pois as notas dos médicos podem ser rapidamente disponibilizadas para pacientes ou outros médicos.
Os benefícios comuns da RAG em todos os setores incluem recuperação de dados melhor e mais completa, suporte aprimorado ao cliente e a capacidade de gerar conteúdo personalizado. Ao complementar os LLMs com informações atuais, as organizações podem implementar agentes de IA para fornecer respostas contextualmente relevantes e em tempo real às consultas do usuário, minimizando a necessidade de intervenção humana. A versatilidade da RAG permite adaptar-se a uma vasta gama de aplicações, incluindo as seguintes:
Ajustar um modelo de IA generativa significa adotar um modelo de uso geral, como Claude 2 da Anthropic, Command da Cohere ou Llama 2 da Meta; dar-lhe rodadas adicionais de treinamento em um conjunto de dados menor e específico do domínio; e ajustar os parâmetros do modelo com base nesse treinamento. Esse ajuste ajuda o modelo a ter um melhor desempenho em tarefas específicas porque foi adaptado às nuances e terminologia de um domínio específico, como codificação ou assistência médica.
Escolha o ajuste fino quando um LLM precisar ser habilitado em um domínio específico. Com treinamento extra, um LLM pode entender melhor os prompts e fornecer resultados que refletem as nuances e a terminologia de um campo específico. Você precisará acessar um grande conjunto de dados ou um depósito de documentos selecionados para o processo de treinamento, mas o ajuste fino vale o esforço porque permite maior controle sobre o estilo, o tom e a maneira do conteúdo gerado. Isso pode valer a pena em seus materiais de marketing ou interações com o cliente. O ajuste fino, como a RAG, também pode ser útil em medicina, codificação e outros domínios altamente especializados.
O ajuste fino, o processo de adaptação de um modelo geral de IA a uma tarefa ou domínio específico, é uma técnica poderosa que pode melhorar significativamente os resultados para uma variedade de organizações, especialmente nos casos em que a personalização e a especialização são fundamentais. Aqui estão alguns casos de uso comuns em que pode ser particularmente eficaz:
Tanto o ajuste fino quanto a RAG tornam os LLMs de uso geral mais úteis, mas eles fazem isso de maneiras diferentes. Uma analogia simples é que o ajuste fino de um LLM lhe dá uma compreensão mais profunda de um domínio específico, como medicina ou educação, ao mesmo tempo em que combina o LLM com uma arquitetura RAG lhe dá acesso a dados locais atualizados para suas respostas.
Por que não usá-los juntos para obter respostas que são sutis e oportunas? É uma tendência crescente e até vem com seu próprio acrônimo: RAFT, para ajuste fino aumentado de recuperação. Com essa abordagem híbrida, um modelo ajustado em dados de domínio especializados é então implantado em uma arquitetura RAG, onde usa sua experiência de domínio para recuperar as informações mais relevantes durante a geração de resposta. O resultado é saídas altamente precisas, relevantes e sensíveis ao contexto.
Vamos discutir o RAFT um pouco mais, mas primeiro vamos entender melhor as duas abordagens.
Tanto a RAG quanto o ajuste fino ajudam um LLM a ir além das respostas genéricas extraídas de seus conjuntos de dados de treinamento originais e generalizados. O ajuste fino envolve colocar um LLM em rodadas extras de treinamento usando conjuntos de dados específicos de um determinado domínio ou organização.
A RAG também altera as respostas dos LLMs, mas não altera o modelo subjacente. Em vez disso, um sistema RAG usa um banco de dados local ou uma coleção de documentos selecionados para informar as respostas de um LLM, geralmente com detalhes atualizados.
As limitações – e os benefícios – dessas duas abordagens levaram, naturalmente, a uma tendência crescente de combinar seus pontos fortes. O resultado é a abordagem híbrida chamada RAFT.
A escolha entre usar uma arquitetura RAG ou um regime de ajuste fino se resume aos recursos que você tem e como você usará seu LLM. Conforme observado na tabela abaixo, a maioria dos casos de uso se beneficiará do esforço para combinar as duas abordagens - para a maioria das empresas, uma vez que elas se esforçaram para ajustar, a RAG é uma adição natural. Mas aqui estão seis perguntas a serem feitas para determinar qual priorizar:
| Requisitos de caso de uso | RAG | Ajuste | RAFT |
|---|---|---|---|
| As respostas devem incluir informações locais e atualizadas. | sim |
não |
sim |
| As respostas devem incluir um alto nível de explicabilidade. | sim |
não |
sim |
| As respostas devem refletir o profundo conhecimento de domínio de uma organização. | sim |
sim |
sim |
| A organização tem acesso a uma poderosa rede neural e recursos de GPU para treinamento de IA. | não |
sim |
sim |
| As respostas devem refletir o tom e a linguagem de marketing de uma organização. | não |
sim |
sim |
| A organização possui uma grande coleção de documentos, bem organizados e atualizados para a IA extrair e citar em suas respostas. | sim |
não |
sim |
| O sistema de IA tem acesso a recursos de runtime limitados. | não |
sim |
sim |
| A organização possui um grande conjunto de dados e armazenamento de documentos selecionados para treinar e ajustar uma IA. | sim |
não |
sim |
Quer você escolha RAG, ajuste fino ou ambos, a Oracle se especializa em ajudar organizações como a sua a obter ganhos de produtividade com a Oracle Cloud Infrastructure (OCI) Generative AI, um serviço totalmente gerenciado que inclui o poder da OCI e uma escolha de LLMs de código aberto ou proprietários.
Facilitamos a combinação do seu LLM com a RAG para que você possa obter respostas atualizadas baseadas em suas diversas bases de conhecimento. Quando é hora de executar seu regime de ajuste fino, a infraestrutura da Oracle AI é uma ótima opção. Você encontrará superclusters que escalam até 65.536 GPUs - mais do que o suficiente para executar suas cargas de trabalho de treinamento e inferência mais exigentes, como respostas de LLM, visão computacional e análise preditiva.
LLMs de uso geral continuam a melhorar, com um fluxo constante de novas versões como Anthropic, Cohere, Google, Meta e muitos outros. Mas não importa o quão habilmente esses modelos de IA lidam com a linguagem humana, eles sempre precisarão de uma maneira de conectar esse conjunto de habilidades às necessidades específicas de casos de uso de negócios. O ajuste fino e a RAG são atualmente os dois melhores métodos para fazer isso. Procure que eles continuem evoluindo à medida que os modelos de IA, hardware e arquiteturas de dados avançam.
O seu centro de excelência em IA deve desempenhar um papel fundamental na implantação da RAG. Não tem um CoE? Saiba como colocar um em funcionamento agora.
A RAG é melhor do que o ajuste fino?
O ajuste fino e RAG do modelo de IA é diferente, com seus próprios benefícios e custos. Ambos são métodos populares de tornar os modelos de IA generativa mais úteis, e cada organização deve escolher o método que melhor se adapte às suas necessidades. Outra opção popular é combinar as duas abordagens, chamadas RAFT, para ajuste fino aumentado de recuperação.
O que é melhor que a RAG?
A RAG é simplesmente uma técnica para ajudar um LLM a fornecer melhores respostas, referenciando os dados e documentos de uma empresa. Um método chamado GraphRAG surgiu como uma maneira de aprimorar ainda mais as respostas de LLM além do que uma arquitetura RAG pode fazer por conta própria, mas acrescenta complexidade arquitetônica e casos de uso populares ainda não surgiram.
Ajustar um modelo de IA é outro método que pode ajudar um LLM a oferecer respostas mais direcionadas ou diferenciadas, e pode ser combinado com a RAG para melhorar ainda mais o desempenho do LLM.
A RAG e o ajuste fino podem ser usados juntos?
Sim. Essa abordagem híbrida oferece um modelo ajustado em dados de domínio especializados e, em seguida, implantado em uma arquitetura RAG para que possa oferecer as informações mais recentes ou mais relevantes em suas respostas.
Qual é a diferença entre RAG e aprendizagem de transferência?
A RAG melhora as respostas de um LLM acessando uma base de conhecimento local e atualizada. A aprendizagem por transferência melhora as respostas de um modelo de IA de uso geral acessando um modelo de IA separado que foi ajustado para funcionar em um domínio específico.
