Jeffrey Erickson | Redator Sênior | 25 de fevereiro de 2025
À medida que a IA se torna mais útil para as empresas e os agentes de IA, em particular, assumem fluxos de trabalho mais complexos, o ajuste fino da IA será uma parte importante da história. Esses agentes podem responder a perguntas sobre dados e tomar medidas em nosso nome, como escrever código, gerenciar calendários, apresentar insights analíticos e muito mais. Ao longo do processo, os modelos de IA terão que trabalhar juntos para investigar dados e repositórios de documentos, coletar informações, verificar a precisão, acionar as ações corretas e comunicá-las. Os sofisticados modelos de IA envolvidos serão versados em padrões gerais de linguagem, mas também precisarão ser otimizados para domínios específicos com sua própria linguagem, base de conhecimento e muito mais. Como o processo de ajuste fino pode ajudar um modelo de IA, e futuros agentes de IA, a captar as nuances e os detalhes corretamente? Vamos analisar aspectos do ajuste fino de modelos de IA a seguir.
O ajuste fino de modelos de IA é o processo que cientistas de dados e engenheiros de machine learning (ML) usam para adaptar um modelo de ML treinado para ter um desempenho melhor em uma tarefa específica. O ajuste fino, por exemplo, pode ser usado para pegar um modelo de linguagem de uso geral (LLM), como o Command da Cohere ou o Llama 2 da Meta, e torná-lo mais adequado para um ambiente de saúde ou função de atendimento ao cliente.
Esses modelos de uso geral, às vezes chamados de "modelos de base", são treinados em grandes conjuntos de dados gerais, como dados de praticamente todas as fontes abertas da internet. Isso os ajuda a aprender e a compreender uma ampla gama de recursos e padrões. Alguns têm um bom domínio da linguagem, outros conseguem reconhecer e manipular dados multimodais, como imagens, vídeos e áudios, além de texto.
O ajuste fino pega esse modelo sofisticado e continua seu treinamento em um conjunto de dados menor, extraído de uma tarefa ou domínio de negócios específico. Isso proporciona ao modelo uma compreensão da taxonomia, do contexto e até mesmo do conhecimento especializado nessa área.
A ideia é manter o vasto conhecimento do regime de treinamento original do modelo, ao mesmo tempo que proporciona uma melhor compreensão das nuances e detalhes do domínio em que o modelo de IA irá operar. Por exemplo, um modelo de IA de uso geral pode ser ajustado para ler e discutir imagens médicas ou um chatbot orientado por LLM que se torna mais fluente em dialetos locais pode ser ajustado para melhorar seu papel no atendimento ao cliente. A corrida para construir agentes de IA altamente capazes em diversos domínios geralmente dependerá de modelos refinados. Confira uma discussão mais aprofundada dos métodos e mecanismos de ajuste fino.
Principais conclusões
Um dos principais desafios enfrentados pelas equipes ao realizar o ajuste fino de IA é a disponibilidade de dados rotulados e de alta qualidade relevantes para seus casos de uso, adquirir ou criar esses dados pode ser caro e demorado. Por exemplo, rotular dados pode significar horas anotando áreas em imagens que uma IA deve aprender a reconhecer ou rotulando trechos de texto para destacar informações importantes. Ainda assim, o ajuste fino oferece vantagens convincentes que o tornam uma técnica crucial no desenvolvimento moderno de IA. Vejamos alguns prós e contras.
O ajuste fino de IA funciona usando modelos existentes como pontos de partida. Normalmente, modelos subjacentes como o Llama 2 da Meta ou o Command da Cohere estão disponíveis em provedores de nuvem. Muitas organizações importam outros modelos para suas plataformas de ciência de dados a partir de repositórios centralizados, como Hugging Face, TensorFlow Hub e PyTorch Hub, que hospedam modelos de machine learning pré-treinados.
Comece com um modelo pré-treinado
Escolha um modelo que seja adequado à sua tarefa, seja ela classificar texto, analisar sentimentos, responder a perguntas, escrever artigos, gerar código, detectar objetos ou qualquer outra atividade que exija IA ou ML.
O ajuste fino de um modelo de IA requer três elementos fundamentais: uma coleção de dados formatados corretamente, o modelo base adequado e uma infraestrutura que forneça as redes neurais para deep learning e as GPUs para alimentar o processo de treinamento. Esses recursos geralmente são montados em uma plataforma de ciência de dados ou, mais recentemente, em um serviço de nuvem de IA generativa.
Como costuma acontecer com a tecnologia, o processo de ajuste fino de IA se tornou mais fácil com o tempo, graças a novas ferramentas e serviços de infraestrutura de projetos de código aberto e equipes de desenvolvimento de provedores de nuvem. Essas ferramentas e serviços estão ajudando a automatizar o ajuste fino, incluindo tarefas complexas que discutiremos, como otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Isso torna o processo mais acessível para quem não é especialista.
De fato, observadores do indústria notaram que as ferramentas se tornaram tão boas em abstrair os detalhes minuciosos da ciência de dados, como o ajuste fino, que a parte mais difícil agora é coletar e formatar o melhor conjunto de dados possível. Nesse caso, também existem bibliotecas de dados prontas para diversos domínios, como saúde e finanças, e funcionalidades, como visão computacional, análise de sentimentos ou detecção de anomalias. Aliás, uma tendência crescente é usar um modelo para o seu caso de uso que já tenha sido ajustado para essa tarefa utilizando essas bibliotecas. A partir daí, a organização pode refinar ainda mais o modelo usando um conjunto de dados menor e, talvez, usar uma arquitetura de geração aumentada por recuperação (RAG) para aprimorar ainda mais os resultados da IA.
As empresas encontraram maneiras de complementar os métodos tradicionais de ajuste fino com uma técnica chamada de aprendizado de reforço. Isso permite que os modelos de IA aprendam por meio de tentativa e erro e autoaperfeiçoamento, em vez de usar um processo separado de rotulagem de conjuntos de dados e ajuste fino supervisionado.
Como ajustar um modelo de IA em quatro etapas
1. Use um modelo pré-treinado: a primeira etapa é selecionar um modelo básico apropriado para a tarefa. Existem modelos populares para processamento de linguagem natural, visão computacional, geração de texto e outras áreas.
2. Adicione novos dados: em seguida, reúna e prepare um conjunto de dados específico para a tarefa. Ele pode consistir em avaliações de clientes rotuladas ou exemplos de perguntas e respostas no domínio que seu modelo pretende abordar.
3. Ajuste: a terceira etapa é ajustar o modelo conforme necessário. Os ajustes podem incluir camadas de congelamento para preservar a aprendizagem anterior do modelo; ajustar a taxa de aprendizagem, o que também pode ajudar a preservar o conhecimento existente do modelo; e adicionar camadas onde tarefas completamente novas são aprendidas, como uma camada de classificação para uma classificação de texto ou uma camada de regressão para previsões.
4. Treinar o modelo: esse processo envolve a alimentação dos novos dados por meio do modelo e a atualização dos parâmetros do modelo. O objetivo é refinar o desempenho do modelo na sua tarefa, mantendo o conhecimento geral do treinamento inicial.
Ao ajustar um modelo, há diversas técnicas disponíveis para escolher. A primeira decisão é se é necessário um ajuste fino completo ou seletivo.
O ajuste fino completo é um processo em que todas as camadas e parâmetros de um modelo básico são atualizados durante o processo de treinamento. Essa é uma boa opção quando há um conjunto de dados grande e diversificado que pode atualizar adequadamente os parâmetros do modelo sem o risco de sobreajuste.
O ajuste fino seletivo envolve a atualização de apenas um subconjunto das camadas ou parâmetros do modelo usando um conjunto de dados menor. Esse método é preserva o conhecimento geral do modelo básico e reduz o tempo e o custo computacional do processo de treinamento. Confira alguns exemplos de técnicas para ajuste fino seletivo.
Em alguns casos de uso, faz sentido projetar e treinar seu modelo de IA do zero. Na maioria dos casos, porém, uma organização pode obter o resultado desejado ajustando um modelo básico.
Em outros casos, treinar um modelo de IA do zero pode ser a melhor opção. Um exemplo é quando o domínio em que você está trabalhando é muito específico, como uma aplicação médica de nicho com dados de imagem muito específicos. O treinamento do zero exige que você monte um grande conjunto de dados e execute longos ciclos de treinamento em infraestrutura específica de IA. Isso pode ser caro, exigindo até milhares de GPUs e milhões de dólares. É também uma tarefa que exige a experiência de cientistas de dados e engenheiros de machine learning.
Por outro lado, o ajuste fino de um modelo de IA envolve pegar um modelo básico e adaptá-lo a uma tarefa específica usando um conjunto de dados menor e específico para essa tarefa. Esse processo costuma ser mais rápido e eficiente porque o modelo começa com uma base sólida em linguagem e conhecimento geral e só precisa se ajustar às nuances da nova tarefa. Isso pode melhorar o desempenho do modelo de IA para suas necessidades com menos trabalho de coleta e preparação de dados e muito menos ciclos de treinamento em comparação com o treinamento do zero. Saiba mais sobre os benefícios do ajuste fino abaixo.
Empresas de diversos setores, desde startups a multinacionais, estão aprimorando modelos pré-treinados. Na verdade, está se tornando uma prática padrão para qualquer organização que queira usar IA, pois permite implementar sistemas personalizados para suas necessidades específicas sem o investimento necessário para treinar modelos em grande escala. Confira alguns exemplos de caso de uso.
Empresas das áreas de finanças, logística, assistência médica e muitos outros setores estão incorporando a IA generativa ajustada às suas operações diárias. Essas histórias reais ajudarão você a explorar uma ampla gama de casos de uso práticos. Veja a seguir três exemplos específicos:
O ajuste fino da IA está evoluindo rapidamente, especialmente porque mais agentes de IA dependem de modelos ajustados. O futuro promete mais automação, novas técnicas e uma gama mais ampla de opções de modelos que podem ajudar as organizações a adaptar os modelos de IA às suas necessidades.
Essas inovações incluem serviços de ML aprimorados que automatizam o ajuste fino, incluindo otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Esperamos que as técnicas de aumento de dados sensíveis ao contexto ajudem o modelo a aprender recursos mais relevantes com maior rapidez, e o aprendizado dinâmico permitirá que um modelo ajuste sua taxa de aprendizado em tempo real. Além disso, esperamos que os desenvolvedores de modelos e de fundamentos de ML continuem lançando modelos mais versáteis e avançados, capazes de transferir conhecimento entre diferentes modalidades e que podem ser ajustados para executar tarefas que exigem a compreensão de múltiplos tipos de dados. O desafio será criar uma infraestrutura de dados versátil o suficiente para aproveitar essas inovações quando elas surgirem.
Você sabia que a Oracle Cloud Infrastructure (OCI) oferece acesso a tudo o que você precisa para aprimorar modelos de machine learning e modelos básicos? A Oracle fornece a infraestrutura física, a infraestrutura de processamento de dados, a plataforma de ciência de dados e os serviços de IA generativa em serviços totalmente gerenciados. O serviço de IA generativa da OCI, por exemplo, oferece uma integração simples e contínua com LLMs versáteis em um serviço fácil de usar. Use-o para aprimorar modelos para uma ampla gama de casos de uso, incluindo assistência na escrita, sumarização, análise e bate-papo.
Enquanto isso, os cientistas de dados e engenheiros de ML podem aproveitar a plataforma de ciência de dados da Oracle para colaborar na criação, no treinamento e na implementação de modelos de ML usando Python e ferramentas de código aberto. Um ambiente baseado em JupyterLab fornece todos os recursos necessários para experimentar, desenvolver modelos e escalar o treinamento de modelos com GPUs NVIDIA e treinamento distribuído. Leve os modelos para produção e mantenha-os íntegros com recursos de operações de ML, como pipelines automatizados, implementações de modelos e monitoramento de modelos.
A otimização de um modelo de IA é apenas uma das formas de aproveitar essa tecnologia para ficar à frente da concorrência. Confira outras maneiras pelas quais as empresas podem se beneficiar.
Como o ajuste fino difere de outros tipos de treinamento de modelos?
Ajustar modelos de IA com precisão é diferente de treinar modelos de IA do zero. É o processo de adicionar etapas de treinamento a um modelo básico sofisticado, levando a resultados mais relevantes ao contexto em uma tarefa específica. O ajuste fino geralmente requer menos dados e é mais rápido e econômico do que criar e treinar um modelo do zero.
O ajuste fino pode ser usado com qualquer tipo de modelo?
O ajuste fino de IA pode ser usado com modelos básicos em uma ampla gama de casos de uso, seja reconhecimento de imagem, classificação de texto, geração de linguagem, saídas de áudio ou outras saídas.