Jeffrey Erickson | Redator Sênior | 21 de novembro de 2024
Os grandes modelos de linguagem, ou LLMs, de uso geral se tornaram populares por sua capacidade de abordar uma ampla variedade de tópicos e escrever trabalhos acadêmicos, notas de agradecimento e muitas outras tarefas. No entanto, no mundo corporativo, esses resultados genéricos não são suficientes. Um LLM que precisa fornecer suporte técnico para um determinado dispositivo, por exemplo, necessita recorrer a conhecimentos específicos da área.
Atualmente, existem duas maneiras de ajudar modelos de IA generativa a fornecer respostas que reflitam esse tipo de especialização: ajuste fino e geração aumentada por recuperação (RAG). Cada uma apresenta benefícios e desafios. Vamos analisar essas opções mais detalhadamente para entender como funcionam e quando utilizá-las.
Principais conclusões
RAG, abreviação de geração aumentada por recuperação, é uma estrutura arquitetônica desenvolvida por pesquisadores da Meta para ajudar os modelos de IA de uso geral a fornecer resultados relevantes e úteis às organizações. O RAG faz isso fornecendo a um grande modelo de linguagem, ou LLM, acesso a uma base de conhecimento interna que pode ser usada para aumentar seus dados de treinamento originais. O resultado é um sistema de IA que combina a fluência linguística de um LLM com dados locais para fornecer respostas direcionadas e contextualmente apropriadas. Essa abordagem, diferentemente do ajuste fino de modelos de IA, funciona sem modificar o próprio modelo subjacente.
Use a RAG quando for importante que as respostas da IA generativa forneçam dados atualizados ou específicos da organização que não faziam parte do treinamento do LLM. Por exemplo, se uma empresa possui um grande conjunto de informações confiáveis sobre seus produtos ou operações diárias, uma arquitetura RAG fornecerá esses dados para complementar as solicitações e respostas que passam pelo LLM, tornando os resultados mais úteis, verificáveis e precisos. Isso pode aprimorar a automação do suporte técnico, a verificação da disponibilidade de produtos no varejo ou até mesmo na área da saúde, permitindo que as observações médicas sejam disponibilizadas rapidamente para pacientes ou outros profissionais de saúde.
Os benefícios comuns da RAG em diversos setores incluem recuperação de dados melhor e mais completa, suporte ao cliente aprimorado e a capacidade de gerar conteúdo personalizado. Ao complementar os LLMs com informações atuais, as organizações podem implementar agentes de IA para fornecer respostas contextualmente relevantes e em tempo real às consultas do usuário, minimizando a necessidade de intervenção humana.. A versatilidade da RAG permite que ele se adapte a uma ampla gama de aplicações, incluindo:
Fazer o ajuste fino de um modelo de IA generativa significa selecionar um modelo de uso geral, como o Claude 2 da Anthropic, o Command da Cohere ou o Llama 2 da Meta, aplicar ciclos adicionais de treinamento em um conjunto de dados menor e específico do domínio e adaptar os parâmetros do modelo com base nesse treinamento. Isso permite que o modelo tenha melhor desempenho em tarefas específicas, pois foi adaptado às nuances e à terminologia de um domínio específico, como programação ou assistência médica.
Escolha o ajuste fino quando um LLM precisar ser habilitado em um domínio específico. Com treinamento adicional, um LLM pode compreender melhor as instruções e fornecer resultados que refletem as nuances e a terminologia de uma área específica. Você precisará ter acesso a um grande conjunto de dados ou repositório de documentos selecionados para o processo de treinamento, mas o ajuste fino vale o esforço, pois permite maior controle sobre o estilo, o tom e a maneira do conteúdo gerado. Isso pode trazer resultados positivos nos materiais de marketing ou nas interações com os clientes. O ajuste fino, assim como o método RAG, também pode ser útil na área de medicina, programação e outros domínios altamente especializados.
O ajuste fino, processo de adaptação de um modelo geral de IA a uma tarefa ou domínio específico, é uma técnica poderosa que pode melhorar significativamente os resultados para diversas organizações, especialmente em casos onde a personalização e a especialização são fundamentais. Confira alguns casos de uso comuns em que essa técnica pode ser particularmente eficaz:
Tanto o ajuste fino quanto a RAG tornam os LLMs de uso geral mais úteis, mas o fazem de maneiras diferentes. Uma analogia simples é que o ajuste fino de um LLM proporciona uma compreensão mais profunda de um domínio específico, como medicina ou educação, enquanto a combinação do LLM com uma arquitetura RAG oferece acesso a dados locais atualizados para suas respostas.
Por que não usá-los em conjunto para obter respostas que sejam ao mesmo tempo precisas e oportunas? É uma tendência cada vez mais popular e até tem sua própria sigla: RAFT, que significa ajuste fino aumentado por recuperação. Com essa abordagem híbrida, um modelo ajustado com dados de domínio especializado é implementado em uma arquitetura RAG, onde utiliza seu conhecimento especializado para recuperar as informações mais relevantes durante a geração de respostas. O resultado são informações altamente precisas, relevantes e contextualizadas.
Discutiremos melhor sobre o RAFT daqui a pouco, mas primeiro vamos entender melhor as duas abordagens.
Tanto a RAG quanto o ajuste fino permitem que um LLM vá além das respostas genéricas extraídas de conjuntos de dados de treinamento originais e generalizados. O ajuste fino envolve submeter um LLM a ciclos adicionais de treinamento usando conjuntos de dados específicos para um determinado domínio ou organização.
A RAG também altera as respostas dos LLMs, mas não modifica o modelo subjacente. Em vez disso, um sistema RAG utiliza um banco de dados local ou uma coleção selecionada de documentos para orientar as respostas de um LLM, frequentemente com detalhes atualizados.
As limitações (e as vantagens) dessas duas abordagens, naturalmente, levaram a uma tendência crescente de combinar seus pontos fortes. O resultado é a abordagem híbrida chamada RAFT.
A escolha entre usar uma arquitetura RAG ou ajuste fino depende dos recursos disponíveis e de como você usará seu LLM. Conforme observado na tabela abaixo, a maioria dos casos de uso se beneficiará do esforço de combinar as duas abordagens. Para a maioria das empresas, depois de investirem no ajuste fino, a RAG é uma adição natural. Mas aqui estão seis perguntas a serem feitas para determinar qual priorizar:
| Requisitos de caso de uso | RAG | Ajuste | RAFT |
|---|---|---|---|
| As respostas devem incluir informações locais e atualizadas. | sim |
não |
sim |
| As respostas devem incluir um alto nível de explicabilidade. | sim |
não |
sim |
| As respostas devem refletir o profundo conhecimento de domínio de uma organização. | sim |
sim |
sim |
| A organização tem acesso a uma avançada rede neural e recursos de GPU para treinamento de IA. | não |
sim |
sim |
| As respostas devem refletir o tom e a linguagem de marketing da organização. | não |
sim |
sim |
| A organização possui uma coleção grande, bem organizada e atualizada de documentos para a IA usar e citar em suas respostas. | sim |
não |
sim |
| O sistema de IA tem acesso a recursos de runtime limitados. | não |
sim |
sim |
| A organização possui um amplo conjunto de dados selecionados e um repositório de documentos para treinar e aprimorar uma IA. | sim |
não |
sim |
Quer você escolha RAG, ajuste fino ou ambos, a Oracle se especializa em ajudar organizações como a sua a aumentar a produtividade com a Oracle Cloud Infrastructure (OCI) Generative AI, um serviço totalmente gerenciado que inclui o poder da OCI e uma seleção de LLMs de código aberto ou proprietários.
Facilitamos a combinação do seu LLM com RAG para que você possa obter respostas atualizadas com base em suas diversas bases de conhecimento. Quando chegar a hora de executar seu regime de ajuste fino, a infraestrutura da Oracle AI é uma ótima opção. Você encontrará superclusters que escalam até 65.536 GPUs mais do que o suficiente para executar suas cargas de trabalho de treinamento e inferência mais exigentes, como respostas de LLM, visão computacional e análise preditiva.
Os LLMs de uso geral continuam melhorando, com um fluxo constante de novas versões chegando de empresas como Anthropic, Cohere, Google, Meta e muitos outras. Mas, por mais habilidosos que esses modelos de IA sejam com a linguagem humana, eles sempre precisarão de uma forma de conectar essa capacidade às necessidades específicas dos casos de uso de negócios. O ajuste fino e a RAG são atualmente os dois melhores métodos para fazer isso. É provável que eles continuem a evoluir à medida que os modelos de IA, o hardware e as arquiteturas de dados avançam.
O seu centro de excelência em IA deve desempenhar um papel fundamental na implementação da RAG. Ainda não tem um centro de excelência? Saiba como colocar um em funcionamento agora.
A RAG é melhor que o ajuste fino?
A RAG e o ajuste fino de modelos de IA são diferentes, com seus próprios benefícios e custos. Ambos são métodos populares para tornar os modelos de IA generativa mais úteis, e cada empresa deve escolher o método que melhor se adapta às suas necessidades. Outra opção popular é combinar as duas abordagens, chamada RAFT, para ajuste fino aumentado por recuperação.
O que é melhor que a RAG?
A RAG é simplesmente uma técnica para ajudar um LLM a fornecer melhores respostas, referenciando os dados e documentos de uma empresa. Um método chamado GraphRAG surgiu como uma forma de aprimorar ainda mais as respostas do LLM, além do que uma arquitetura RAG pode fazer sozinha, mas adiciona complexidade arquitetônica e casos de uso populares ainda não surgiram.
O ajuste fino de um modelo de IA é outro método que pode ajudar um LLM a oferecer respostas mais direcionadas ou com nuances, e pode ser combinado com a RAG para melhorar ainda mais o desempenho do LLM.
A RAG e o ajuste fino podem ser usados juntos?
Sim. Essa abordagem híbrida oferece um modelo com ajuste fino em dados de domínio especializados e, em seguida, implementado em uma arquitetura RAG para que possa oferecer as informações mais recentes ou mais relevantes em suas respostas.
Qual é a diferença entre RAG e aprendizado por transferência?
A RAG melhora as respostas de um LLM acessando uma base de conhecimento local e atualizada. O aprendizado por transferência melhora as respostas de um modelo de IA de uso geral acessando um modelo de IA separado que foi ajustado para funcionar em um domínio específico.
