Introdução ao ajuste fino em machine learning

Jeffrey Erickson | Redator Sênior | 25 de fevereiro de 2025

À medida que a IA se torna mais útil para as empresas e os agentes de IA, em particular, assumem fluxos de trabalho mais complexos, o ajuste fino da IA será uma parte importante da história. Esses agentes podem responder a perguntas sobre dados e tomar medidas em nosso nome, como escrever código, gerenciar calendários, apresentar insights analíticos e muito mais. Ao longo do processo, os modelos de IA terão que trabalhar juntos para investigar dados e repositórios de documentos, coletar informações, verificar a precisão, acionar as ações corretas e comunicá-las. Os sofisticados modelos de IA envolvidos serão versados ​​em padrões gerais de linguagem, mas também precisarão ser otimizados para domínios específicos com sua própria linguagem, base de conhecimento e muito mais. Como o processo de ajuste fino pode ajudar um modelo de IA, e futuros agentes de IA, a captar as nuances e os detalhes corretamente? Vamos analisar aspectos do ajuste fino de modelos de IA a seguir.

O que é ajuste fino?

O ajuste fino de modelos de IA é o processo que cientistas de dados e engenheiros de machine learning (ML) usam para adaptar um modelo de ML treinado para ter um desempenho melhor em uma tarefa específica. O ajuste fino, por exemplo, pode ser usado para pegar um modelo de linguagem de uso geral (LLM), como o Command da Cohere ou o Llama 2 da Meta, e torná-lo mais adequado para um ambiente de saúde ou função de atendimento ao cliente.

Esses modelos de uso geral, às vezes chamados de "modelos de base", são treinados em grandes conjuntos de dados gerais, como dados de praticamente todas as fontes abertas da internet. Isso os ajuda a aprender e a compreender uma ampla gama de recursos e padrões. Alguns têm um bom domínio da linguagem, outros conseguem reconhecer e manipular dados multimodais, como imagens, vídeos e áudios, além de texto.

O ajuste fino pega esse modelo sofisticado e continua seu treinamento em um conjunto de dados menor, extraído de uma tarefa ou domínio de negócios específico. Isso proporciona ao modelo uma compreensão da taxonomia, do contexto e até mesmo do conhecimento especializado nessa área.

A ideia é manter o vasto conhecimento do regime de treinamento original do modelo, ao mesmo tempo que proporciona uma melhor compreensão das nuances e detalhes do domínio em que o modelo de IA irá operar. Por exemplo, um modelo de IA de uso geral pode ser ajustado para ler e discutir imagens médicas ou um chatbot orientado por LLM que se torna mais fluente em dialetos locais pode ser ajustado para melhorar seu papel no atendimento ao cliente. A corrida para construir agentes de IA altamente capazes em diversos domínios geralmente dependerá de modelos refinados. Confira uma discussão mais aprofundada dos métodos e mecanismos de ajuste fino.

Principais conclusões

  • O ajuste fino de IA é o processo de treinamento de um modelo de IA de uso geral para fornecer mais contexto e conhecimento para uma tarefa específica, como análise de sentimento, geração de linguagem, detecção de imagem e muitas outras cargas de trabalho.
  • O ajuste fino é um dos vários métodos para melhorar as saídas de um LLM para aplicações, incluindo agentes de IA.
  • Conjuntos de dados de treinamento muito menores são necessários para o ajuste fino em comparação com o treinamento de um modelo de IA do zero.
  • Após o ajuste fino, um modelo de IA pode se tornar mais especializado e preciso em uma área específica, como medicina, manufatura ou atendimento ao cliente.

Benefícios e desafios do ajuste fino

Um dos principais desafios enfrentados pelas equipes ao realizar o ajuste fino de IA é a disponibilidade de dados rotulados e de alta qualidade relevantes para seus casos de uso, adquirir ou criar esses dados pode ser caro e demorado. Por exemplo, rotular dados pode significar horas anotando áreas em imagens que uma IA deve aprender a reconhecer ou rotulando trechos de texto para destacar informações importantes. Ainda assim, o ajuste fino oferece vantagens convincentes que o tornam uma técnica crucial no desenvolvimento moderno de IA. Vejamos alguns prós e contras.

Prós

  • Economiza tempo e dinheiro em vez de treinar um modelo de IA do zero: o ajuste fino de um modelo base oferece diversas vantagens, incluindo tempos de treinamento significativamente mais rápidos e custos computacionais mais baixos, visto que os modelos base já passaram por um extenso treinamento geral e precisam de menos tempo e recursos para se adaptar a novas tarefas. Além disso, o ajuste fino pode ser eficaz mesmo com conjuntos de dados menores e específicos para a tarefa, o que pode reduzir o tempo e o custo associados à coleta e ao pré-processamento de dados. O tempo de treinamento reduzido e os requisitos computacionais de ajuste fino também podem resultar em menor consumo de energia, gerando economia.
  • Oferece melhor desempenho para tarefas específicas: o ajuste fino de modelos básicos pode levar a uma maior precisão e convergência mais rápida, sendo a convergência o ponto em que a taxa de erro de um modelo de ML se torna constante, indicando que ele não continuará a melhorar sua precisão com mais treinamento no mesmo conjunto de dados. Os modelos de base podem ser rapidamente adaptados às nuances de uma nova tarefa com menos dados e menos iterações de treinamento. Essa combinação de conhecimento geral e aprendizado específico da tarefa ajuda o modelo a ter um bom desempenho quando encontra novos dados.

Contras

  • Sobreajuste: o sobreajuste no ajuste fino de IA ocorre quando as rodadas de treinamento em novos dados são muito completas e acabam substituindo as camadas que ajudam o modelo com conhecimento geral. O conhecimento geral e a flexibilidade linguística do modelo básico são essenciais para que ele tenha um bom desempenho ao se deparar com novos dados. Com o sobreajuste, o modelo começa a memorizar os dados de treinamento em vez de aprender os padrões subjacentes que permitem generalizar e lidar com novos exemplos.
  • Custo: os recursos computacionais e a expertise necessários para o ajuste fino de modelos de IA podem ser caros. O processo depende de GPUs ou TPUs (unidades de processamento de tensores) de alto desempenho, que podem ser caras para comprar ou alugar de um provedor de nuvem. Contratar especialistas em machine learning e processamento de linguagem natural também pode ser caro.
  • Tempo: o ajuste fino pode ser demorado por vários motivos. Primeiro, é preciso preparar os dados, o que pode incluir coleta, limpeza, anotação e formatação. Depois de iniciar o processo de ajuste fino, este pode levar horas, dias ou até semanas, dependendo do tamanho e da complexidade da tarefa. Mais tempo significa custos computacionais mais altos.

Como funciona o ajuste fino

O ajuste fino de IA funciona usando modelos existentes como pontos de partida. Normalmente, modelos subjacentes como o Llama 2 da Meta ou o Command da Cohere estão disponíveis em provedores de nuvem. Muitas organizações importam outros modelos para suas plataformas de ciência de dados a partir de repositórios centralizados, como Hugging Face, TensorFlow Hub e PyTorch Hub, que hospedam modelos de machine learning pré-treinados.

Comece com um modelo pré-treinado

Escolha um modelo que seja adequado à sua tarefa, seja ela classificar texto, analisar sentimentos, responder a perguntas, escrever artigos, gerar código, detectar objetos ou qualquer outra atividade que exija IA ou ML.

O ajuste fino de um modelo de IA requer três elementos fundamentais: uma coleção de dados formatados corretamente, o modelo base adequado e uma infraestrutura que forneça as redes neurais para deep learning e as GPUs para alimentar o processo de treinamento. Esses recursos geralmente são montados em uma plataforma de ciência de dados ou, mais recentemente, em um serviço de nuvem de IA generativa.

Como costuma acontecer com a tecnologia, o processo de ajuste fino de IA se tornou mais fácil com o tempo, graças a novas ferramentas e serviços de infraestrutura de projetos de código aberto e equipes de desenvolvimento de provedores de nuvem. Essas ferramentas e serviços estão ajudando a automatizar o ajuste fino, incluindo tarefas complexas que discutiremos, como otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Isso torna o processo mais acessível para quem não é especialista.

De fato, observadores do indústria notaram que as ferramentas se tornaram tão boas em abstrair os detalhes minuciosos da ciência de dados, como o ajuste fino, que a parte mais difícil agora é coletar e formatar o melhor conjunto de dados possível. Nesse caso, também existem bibliotecas de dados prontas para diversos domínios, como saúde e finanças, e funcionalidades, como visão computacional, análise de sentimentos ou detecção de anomalias. Aliás, uma tendência crescente é usar um modelo para o seu caso de uso que já tenha sido ajustado para essa tarefa utilizando essas bibliotecas. A partir daí, a organização pode refinar ainda mais o modelo usando um conjunto de dados menor e, talvez, usar uma arquitetura de geração aumentada por recuperação (RAG) para aprimorar ainda mais os resultados da IA.

As empresas encontraram maneiras de complementar os métodos tradicionais de ajuste fino com uma técnica chamada de aprendizado de reforço. Isso permite que os modelos de IA aprendam por meio de tentativa e erro e autoaperfeiçoamento, em vez de usar um processo separado de rotulagem de conjuntos de dados e ajuste fino supervisionado.

Como ajustar um modelo de IA em quatro etapas

1. Use um modelo pré-treinado: a primeira etapa é selecionar um modelo básico apropriado para a tarefa. Existem modelos populares para processamento de linguagem natural, visão computacional, geração de texto e outras áreas.

2. Adicione novos dados: em seguida, reúna e prepare um conjunto de dados específico para a tarefa. Ele pode consistir em avaliações de clientes rotuladas ou exemplos de perguntas e respostas no domínio que seu modelo pretende abordar.

3. Ajuste: a terceira etapa é ajustar o modelo conforme necessário. Os ajustes podem incluir camadas de congelamento para preservar a aprendizagem anterior do modelo; ajustar a taxa de aprendizagem, o que também pode ajudar a preservar o conhecimento existente do modelo; e adicionar camadas onde tarefas completamente novas são aprendidas, como uma camada de classificação para uma classificação de texto ou uma camada de regressão para previsões.

4. Treinar o modelo: esse processo envolve a alimentação dos novos dados por meio do modelo e a atualização dos parâmetros do modelo. O objetivo é refinar o desempenho do modelo na sua tarefa, mantendo o conhecimento geral do treinamento inicial.

Técnicas e métodos de ajuste fino

Ao ajustar um modelo, há diversas técnicas disponíveis para escolher. A primeira decisão é se é necessário um ajuste fino completo ou seletivo.

Ajuste fino completo

O ajuste fino completo é um processo em que todas as camadas e parâmetros de um modelo básico são atualizados durante o processo de treinamento. Essa é uma boa opção quando há um conjunto de dados grande e diversificado que pode atualizar adequadamente os parâmetros do modelo sem o risco de sobreajuste.

Ajuste fino seletivo

O ajuste fino seletivo envolve a atualização de apenas um subconjunto das camadas ou parâmetros do modelo usando um conjunto de dados menor. Esse método é preserva o conhecimento geral do modelo básico e reduz o tempo e o custo computacional do processo de treinamento. Confira alguns exemplos de técnicas para ajuste fino seletivo.

  • Aumento de dados: envolve a geração de dados de treinamento adicionais a partir do seu conjunto de dados existente aplicando transformações. Para imagens, as transformações podem incluir rotação, redimensionamento, recorte ou adição de ruído. Isso pode melhorar o desempenho do ajuste fino quando o conjunto de dados específico da tarefa for pequeno.
  • Parada antecipada: esta técnica é usada para monitorar e interromper o treinamento quando o desempenho em um conjunto de validação para de melhorar. Isso melhora a eficiência e evita o sobreajuste.
  • Métodos de conjunto: este método combina vários modelos ajustados com precisão, numa tentativa de reduzir a variação nos resultados dos modelos.
  • Ajuste de camadas específicas: esta técnica torna o ajuste fino mais eficiente, ajustando apenas as camadas mais superficiais de uma rede neural profunda, enquanto as camadas mais profundas permanecem bloqueadas ou fixas.
  • Ajuste de hiperparâmetros: inclui várias técnicas para ajustar recursos de um processo de ajuste fino, como taxa de aprendizado ou tamanho de lote.
  • Congelamento de camadas: aqui, as camadas do modelo fundamental responsáveis ​​pela compreensão básica e universal são bloqueadas. Isso ajuda a evitar o sobreajuste, em que o modelo essencialmente memoriza os dados de treinamento em vez de aprender padrões generalizáveis ​​que permitem lidar corretamente com novos dados.
  • Programação da taxa de aprendizagem: uma taxa de aprendizagem mais lenta permite ajustes mais sutis e precisos aos parâmetros do modelo básico. O processo reduz gradualmente a taxa de aprendizagem, ou tamanho da etapa, ao longo do tempo, permitindo que o modelo aprenda novos materiais de forma mais eficaz, adotando etapas mais curtas à medida que se aproxima da solução ideal.
  • Técnicas de regularização: usadas especificamente para evitar o sobreajuste.
  • Aprendizado por transferência: envolve o treinamento adicional de um modelo básico em um conjunto de dados menor, específico para uma determinada tarefa.

Ajuste fino vs. treinamento do zero

Em alguns casos de uso, faz sentido projetar e treinar seu modelo de IA do zero. Na maioria dos casos, porém, uma organização pode obter o resultado desejado ajustando um modelo básico.

Em outros casos, treinar um modelo de IA do zero pode ser a melhor opção. Um exemplo é quando o domínio em que você está trabalhando é muito específico, como uma aplicação médica de nicho com dados de imagem muito específicos. O treinamento do zero exige que você monte um grande conjunto de dados e execute longos ciclos de treinamento em infraestrutura específica de IA. Isso pode ser caro, exigindo até milhares de GPUs e milhões de dólares. É também uma tarefa que exige a experiência de cientistas de dados e engenheiros de machine learning.

Por outro lado, o ajuste fino de um modelo de IA envolve pegar um modelo básico e adaptá-lo a uma tarefa específica usando um conjunto de dados menor e específico para essa tarefa. Esse processo costuma ser mais rápido e eficiente porque o modelo começa com uma base sólida em linguagem e conhecimento geral e só precisa se ajustar às nuances da nova tarefa. Isso pode melhorar o desempenho do modelo de IA para suas necessidades com menos trabalho de coleta e preparação de dados e muito menos ciclos de treinamento em comparação com o treinamento do zero. Saiba mais sobre os benefícios do ajuste fino abaixo.

Casos de uso comuns para ajuste fino

Empresas de diversos setores, desde startups a multinacionais, estão aprimorando modelos pré-treinados. Na verdade, está se tornando uma prática padrão para qualquer organização que queira usar IA, pois permite implementar sistemas personalizados para suas necessidades específicas sem o investimento necessário para treinar modelos em grande escala. Confira alguns exemplos de caso de uso.

Exemplos reais

Empresas das áreas de finanças, logística, assistência médica e muitos outros setores estão incorporando a IA generativa ajustada às suas operações diárias. Essas histórias reais ajudarão você a explorar uma ampla gama de casos de uso práticos. Veja a seguir três exemplos específicos:

  • Suporte ao cliente: uma empresa de soluções de segurança industrial implementou uma ferramenta com tecnologia de IA que imediatamente melhorou suas operações de suporte ao cliente. A equipe utiliza o Cohere Command R+ LLM otimizado para processar as solicitações dos clientes e gerar respostas precisas.
  • Assistência médica: pesquisadores universitários estão usando a IA para analisar detalhadamente os dados de pacientes para desenvolver novas terapias contra o câncer. Eles estão usando infraestrutura em nuvem para hospedar, executar e otimizar LLMs em escala.
  • Setor de serviços: uma empresa brasileira de IA aplicada ajusta os LLMs para ajudar na terapia de reminiscência, um tratamento psicológico comprovado que ajuda pacientes que sofrem de declínio cognitivo.

O que vem por aí em termos de ajuste fino

O ajuste fino da IA ​​está evoluindo rapidamente, especialmente porque mais agentes de IA dependem de modelos ajustados. O futuro promete mais automação, novas técnicas e uma gama mais ampla de opções de modelos que podem ajudar as organizações a adaptar os modelos de IA às suas necessidades.

Essas inovações incluem serviços de ML aprimorados que automatizam o ajuste fino, incluindo otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Esperamos que as técnicas de aumento de dados sensíveis ao contexto ajudem o modelo a aprender recursos mais relevantes com maior rapidez, e o aprendizado dinâmico permitirá que um modelo ajuste sua taxa de aprendizado em tempo real. Além disso, esperamos que os desenvolvedores de modelos e de fundamentos de ML continuem lançando modelos mais versáteis e avançados, capazes de transferir conhecimento entre diferentes modalidades e que podem ser ajustados para executar tarefas que exigem a compreensão de múltiplos tipos de dados. O desafio será criar uma infraestrutura de dados versátil o suficiente para aproveitar essas inovações quando elas surgirem.

Aprimore seus modelos de IA com soluções de IA generativa

Você sabia que a Oracle Cloud Infrastructure (OCI) oferece acesso a tudo o que você precisa para aprimorar modelos de machine learning e modelos básicos? A Oracle fornece a infraestrutura física, a infraestrutura de processamento de dados, a plataforma de ciência de dados e os serviços de IA generativa em serviços totalmente gerenciados. O serviço de IA generativa da OCI, por exemplo, oferece uma integração simples e contínua com LLMs versáteis em um serviço fácil de usar. Use-o para aprimorar modelos para uma ampla gama de casos de uso, incluindo assistência na escrita, sumarização, análise e bate-papo.

Enquanto isso, os cientistas de dados e engenheiros de ML podem aproveitar a plataforma de ciência de dados da Oracle para colaborar na criação, no treinamento e na implementação de modelos de ML usando Python e ferramentas de código aberto. Um ambiente baseado em JupyterLab fornece todos os recursos necessários para experimentar, desenvolver modelos e escalar o treinamento de modelos com GPUs NVIDIA e treinamento distribuído. Leve os modelos para produção e mantenha-os íntegros com recursos de operações de ML, como pipelines automatizados, implementações de modelos e monitoramento de modelos.

A otimização de um modelo de IA é apenas uma das formas de aproveitar essa tecnologia para ficar à frente da concorrência. Confira outras maneiras pelas quais as empresas podem se beneficiar.

Perguntas frequentes sobre ajuste fino

Como o ajuste fino difere de outros tipos de treinamento de modelos?

Ajustar modelos de IA com precisão é diferente de treinar modelos de IA do zero. É o processo de adicionar etapas de treinamento a um modelo básico sofisticado, levando a resultados mais relevantes ao contexto em uma tarefa específica. O ajuste fino geralmente requer menos dados e é mais rápido e econômico do que criar e treinar um modelo do zero.

O ajuste fino pode ser usado com qualquer tipo de modelo?

O ajuste fino de IA pode ser usado com modelos básicos em uma ampla gama de casos de uso, seja reconhecimento de imagem, classificação de texto, geração de linguagem, saídas de áudio ou outras saídas.