Introdução ao Fine-Tuning no Machine Learning

Jeffrey Erickson | Escritor Sênior | 25 de fevereiro de 2025

À medida que a IA se torna mais útil para as empresas e os agentes de IA, em particular, assumem fluxos de trabalho mais complexos, o ajuste fino da IA será uma parte importante da história. Esses agentes podem responder a perguntas sobre dados e tomar medidas em nosso nome, como escrever código, gerenciar calendários, apresentar insights analíticos e muito mais. Ao longo do caminho, os modelos de IA terão que trabalhar juntos para investigar dados e armazenamentos de documentos, coletar informações, verificar novamente sua precisão, acionar as ações certas e comunicá-las. Os sofisticados modelos de IA envolvidos serão bem versados em padrões gerais de linguagem, mas também precisarão ser otimizados para domínios específicos com sua própria linguagem, base de conhecimento e muito mais. Como o processo de ajuste fino pode ajudar um modelo de IA e futuros agentes de IA a acertar as nuances e os detalhes? Vamos explorar aspectos do ajuste fino do modelo de IA abaixo.

O que é Fine-Tuning?

O ajuste fino do modelo de IA é o processo que os cientistas de dados e engenheiros de machine learning (ML) usam para adaptar um modelo de ML treinado para ter melhor desempenho em uma tarefa específica. O ajuste fino, por exemplo, pode ser usado para obter um grande modelo de linguagem (LLM) de uso geral, como o Comando da Cohere ou o Llama 2 da Meta, e torná-lo mais familiar em um ambiente de assistência médica ou em uma função de atendimento ao cliente.

Esses modelos de uso geral, às vezes chamados de "modelos de base", são treinados em grandes conjuntos de dados gerais, como dados de quase toda a internet aberta. Isso os ajuda a aprender e entender uma ampla gama de recursos e padrões. Alguns têm um bom controle sobre a linguagem; outros podem reconhecer e manipular dados multimodais, como imagens, vídeo e áudio, bem como texto.

O ajuste fino pega esse modelo sofisticado e continua seu treinamento em um conjunto de dados menor extraído de uma tarefa ou domínio de negócios específico. Isso dá ao modelo uma compreensão da taxonomia, do contexto e até mesmo do conhecimento especializado nesse campo.

A ideia é manter o vasto conhecimento do regime de treinamento original do modelo, ao mesmo tempo em que lhe dá uma melhor compreensão das nuances e detalhes do domínio onde o modelo de IA estará funcionando. Por exemplo, um modelo de IA de uso geral pode ser ajustado para ler e discutir imagens médicas ou um chatbot orientado por LLM que se torna mais fluente em dialetos locais pode ser ajustado para melhorar seu papel no atendimento ao cliente. A corrida para construir agentes de IA altamente capazes em uma ampla gama de domínios geralmente dependerá de modelos ajustados. Aqui está uma discussão mais profunda dos métodos e mecanismos de ajuste fino.

Principais Conclusões

  • O ajuste fino de IA é o processo de treinamento de um modelo de IA de uso geral para fornecer mais contexto e conhecimento para uma tarefa específica, como análise de sentimento, geração de linguagem, detecção de imagem e muitas outras cargas de trabalho.
  • O ajuste fino é um dos vários métodos de melhorar as saídas de um LLM para aplicações, incluindo agentes de IA.
  • Conjuntos de dados de treinamento muito menores são necessários para ajuste fino em comparação com o treinamento de um modelo de IA do zero.
  • Após o ajuste fino, um modelo de IA pode ser mais familiar e preciso em um campo específico, como medicina, manufatura ou atendimento ao cliente.

Benefícios e Desafios do Ajuste Detalhado

Um dos principais desafios que as equipes enfrentam ao realizar o ajuste fino de IA é a disponibilidade de dados de alta qualidade e rotulados relevantes para seus casos de uso. A aquisição ou a criação desses dados pode ser cara e demorada. Por exemplo, rotular dados pode significar horas de áreas de observação em imagens que uma IA deve aprender a reconhecer ou rotular seções de texto para destacar informações importantes. Ainda assim, o ajuste fino oferece vantagens atraentes que o tornam uma técnica crucial no desenvolvimento moderno de IA. Vejamos alguns prós e contras.

Prós

  • Economiza tempo e dinheiro em vez de treinar um modelo de IA do zero: o ajuste fino de um modelo básico oferece várias vantagens, incluindo tempo de treinamento consideravelmente reduzido e custos computacionais mais baixos, pois os modelos de base já tiveram treinamento geral extensivo e precisam de menos tempo e recursos para se adaptar a uma nova tarefa. Além disso, o ajuste fino pode ser eficaz mesmo com conjuntos de dados menores e específicos da tarefa, o que pode reduzir o tempo e o custo associados à coleta e ao pré-processamento de dados. O tempo de treinamento reduzido e os requisitos computacionais de ajuste fino também podem resultar em menor consumo de energia, o que reduz os custos.
  • Oferece melhor desempenho para tarefas específicas: o ajuste fino dos modelos básicos pode levar a maior precisão e convergência mais rápida, sendo a convergência o ponto em que a taxa de erro de um modelo de ML se torna constante, indicando que não continuará a melhorar sua precisão com mais treinamento no mesmo conjunto de dados. Os modelos de base podem ser rapidamente adaptados às nuances de uma nova tarefa com menos dados e menos iterações de treinamento. Essa combinação de conhecimento geral e aprendizado específico da tarefa ajuda o modelo a ter um bom desempenho quando encontra novos dados.

Contras

  • Superajuste: o sobreajuste no ajuste fino de IA acontece quando as rodadas de treinamento em novos dados são muito completas e acabam substituindo camadas que ajudam o modelo com conhecimento geral. Esse conhecimento geral e a flexibilidade de linguagem do modelo básico são fundamentais para ajudá-lo a ter um bom desempenho quando encontra novos dados. Com o overfitting, o modelo começa a memorizar os dados de treinamento, em vez de aprender os padrões subjacentes que permitem generalizar para que ele possa lidar com novos exemplos.
  • Custo: Os recursos computacionais e a experiência necessária para ajustar modelos de IA podem ser caros. O processo depende de GPUs ou TPUs de alto desempenho (unidades de processamento de tensores), que podem ser caras para comprar ou alugar de um provedor de nuvem. Também pode ser caro contratar os especialistas necessários em machine learning e processamento de linguagem natural.
  • Tempo: o ajuste fino pode consumir muito tempo de várias maneiras. Primeiro, há tempo para preparar os dados, que podem incluir coleta, limpeza, anotação e formatação. Uma vez que o processo de ajuste fino está em andamento, o ajuste fino pode levar horas, dias ou até semanas, dependendo do tamanho e da complexidade da tarefa. Mais tempo se traduz em custos mais altos para o tempo de computação.

Como funciona o ajuste fino

O ajuste fino de IA funciona usando modelos existentes como pontos de partida. Esses modelos básicos, como o Meta's Llama 2 ou o Cohere's Command, geralmente estão disponíveis em provedores de nuvem. Muitas organizações levarão outros modelos para suas plataformas de ciência de dados de repositórios centralizados, como Hugging Face, Hub TensorFlow e Hub PyTorch, que hospedam modelos de aprendizado de máquina pré-treinados.

Começar com um Modelo Pré-treinado

Escolha um modelo que seja adequado à sua tarefa, seja classificando texto, analisando sentimentos, respondendo perguntas, escrevendo artigos, gerando código, detectando objetos ou qualquer outro trabalho que exija IA ou ML.

O ajuste fino de um modelo de IA requer três ingredientes básicos: uma coleção de dados devidamente formatados, o modelo básico certo e uma infraestrutura que fornece as redes neurais para aprendizado profundo e as GPUs para alimentar o regime de treinamento. Esses recursos geralmente são montados em uma plataforma de ciência de dados ou, mais recentemente, em um serviço de nuvem de IA generativa.

Como acontece frequentemente com a tecnologia, o processo de ajuste fino da IA ficou mais fácil ao longo do tempo, graças a novas ferramentas e serviços de infraestrutura de projetos de código aberto e equipes de desenvolvimento de provedores de nuvem. Essas ferramentas e serviços estão ajudando a automatizar o ajuste fino, incluindo tarefas complexas que discutiremos, como otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Isso torna o processo mais acessível para os não especialistas.

De fato, observadores da indústria notaram que as ferramentas se tornaram tão boas em abstrair as minúcias da ciência de dados de ajuste fino que a parte mais difícil agora é coletar e formatar o melhor conjunto de dados possível. Aqui também existem bibliotecas de dados prontas para vários domínios, como saúde e finanças, e recursos, como visão computacional, análise de sentimentos ou detecção de anomalias. Na verdade, uma tendência crescente é usar um modelo para o seu caso de uso que já foi ajustado para essa tarefa usando essas bibliotecas. A partir daí, a organização pode ajustar ainda mais usando um conjunto de dados menor e, talvez, usar uma geração aumentada de recuperação, ou RAG, arquitetura para melhorar ainda mais as saídas de IA.

As empresas encontraram maneiras de complementar os métodos tradicionais de ajuste fino com uma técnica chamada aprendizado de reforço. Isso permite que os modelos de IA aprendam por meio de tentativa e erro e autoaperfeiçoamento, em vez de usar um processo separado de rotulagem de conjuntos de dados e ajuste fino supervisionado.

Como Ajustar um Modelo de IA em Quatro Etapas

1. Usar um modelo pré-treinado: A primeira etapa é selecionar um modelo básico apropriado à tarefa. Existem modelos populares para processamento de linguagem natural, visão computacional, geração de texto e outras áreas.

2. Adicionar novos dados: em seguida, reúna e prepare um conjunto de dados específico da tarefa. Eles podem consistir em análises de clientes rotuladas ou perguntas e respostas de amostra no domínio que seu modelo deve abordar.

3. Ajustar: a terceira etapa é ajustar o modelo conforme necessário. Os ajustes podem incluir camadas de congelamento para preservar a aprendizagem anterior do modelo; ajustar a taxa de aprendizagem, o que também pode ajudar a preservar o conhecimento existente do modelo; e adicionar camadas onde tarefas completamente novas são aprendidas, como uma camada de classificação para uma classificação de texto ou uma camada de regressão para previsões.

4. Treinar o modelo: Esse processo envolve a alimentação dos novos dados por meio do modelo e a atualização dos parâmetros do modelo. O objetivo é refinar o desempenho do modelo de sua tarefa, mantendo o conhecimento geral de seu treinamento inicial.

Técnicas e Métodos em Ajuste Fino

Ao ajustar um modelo, há uma variedade de técnicas disponíveis para escolher. A primeira decisão é se você precisa de ajuste fino completo ou seletivo.

Ajuste Completo

O ajuste fino completo é um processo em que todas as camadas e parâmetros de um modelo básico são atualizados durante o processo de treinamento. Esta é uma boa escolha quando você tem um conjunto de dados grande e diversificado que pode atualizar adequadamente os parâmetros do modelo sem risco de sobreajuste.

Ajuste fino seletivo

O ajuste fino seletivo envolve a atualização de apenas um subconjunto das camadas ou parâmetros do modelo usando um conjunto de dados menor. Este método é bom para preservar o conhecimento geral do modelo básico e reduzir o tempo e o custo computacional do regime de treinamento. Aqui estão exemplos de técnicas para ajuste fino seletivo.

  • Aumento de dados: envolve a geração de dados de treinamento adicionais do seu conjunto de dados existente aplicando transformações. Para imagens, as transformações podem incluir rotação, dimensionamento, recorte ou adição de ruído. Isso pode melhorar o desempenho do ajuste fino quando um conjunto de dados específico da tarefa é pequeno.
  • Parada antecipada: Esta técnica é usada para monitorar e interromper o treinamento quando o desempenho em um conjunto de validação para de melhorar. Isso ajuda na eficiência e pode ajudar a evitar o sobreajuste.
  • Métodos de montagem: Este método combina vários modelos ajustados na tentativa de reduzir a variação nas saídas do modelo.
  • Ajuste de camadas específicas: Esta técnica torna o ajuste fino mais eficiente ajustando apenas as camadas mais rasas de uma rede neural profunda enquanto bloqueia ou congela camadas mais profundas.
  • Ajuste de hiperparâmetro: inclui várias técnicas para ajustar recursos de um processo de ajuste fino, como taxa de aprendizado ou tamanho de lote.
  • Congelamento de camada: Aqui, as camadas no modelo básico responsáveis pelo entendimento básico e universal estão bloqueadas. Isso ajuda a evitar o sobreajuste, em que o modelo memorizou essencialmente os dados de treinamento, em vez de aprender padrões generalizáveis que permitem lidar corretamente com novos dados.
  • Programação de taxa de aprendizagem: Uma taxa de aprendizagem mais lenta pode permitir ajustes mais sutis e precisos nos parâmetros do modelo básico. O processo reduz gradualmente a taxa de aprendizado, ou tamanho da etapa, ao longo do tempo, ajudando o modelo a aprender novos materiais de forma mais eficaz, adotando etapas mais curtas à medida que se aproxima da solução ideal.
  • Técnicas de regularização: São usadas especificamente para evitar overfitting.
  • Treinamento de transferência: envolve o treinamento adicional de um modelo básico em um conjunto de dados menor específico para uma determinada tarefa.

Ajuste fino vs. treinamento do zero

Em alguns casos de uso, faz sentido projetar e treinar seu modelo de IA do zero. Na maioria dos casos, no entanto, uma organização pode obter o resultado desejado, ajustando um modelo básico.

Treinar um modelo de IA do zero pode ser a melhor escolha em alguns casos. Um exemplo é quando o domínio em que você está trabalhando é muito rigoroso, como um aplicativo médico de nicho com dados de imagem talvez muito específicos. O treinamento do zero exige que você monte um grande conjunto de dados e execute longos ciclos de treinamento em infraestrutura específica de IA. Isso pode ser caro, exigindo até milhares de GPUs e milhões de dólares. É também uma tarefa em que a experiência de cientistas de dados e engenheiros de ML será necessária.

Por outro lado, ajustar um modelo de IA envolve pegar um modelo básico e adaptá-lo a uma tarefa específica usando um conjunto de dados menor e específico da tarefa. Este processo é muitas vezes mais rápido e eficiente porque o modelo começa com uma base sólida em linguagem e conhecimento geral e só precisa se ajustar às nuances da nova tarefa. Isso pode melhorar o desempenho do modelo de IA para suas necessidades com menos trabalho de montagem e preparação de dados e muito menos etapas de treinamento em comparação com o treinamento do zero. Veja mais sobre os benefícios do ajuste fino abaixo.

Casos de Uso Comuns para Ajuste Fino

Uma ampla gama de empresas em todos os setores, de startups a corporações multinacionais, são modelos pré-treinados de ajuste fino. Na verdade, está se tornando uma prática padrão para qualquer organização que queira usar IA, pois permite implantar sistemas adaptados às suas necessidades específicas sem o enorme investimento necessário para o treinamento de modelos em larga escala. Aqui estão alguns exemplos de caso de uso.

Exemplos reais

As organizações que trabalham em finanças, logística, assistência médica e muitos outros domínios estão trazendo a IA generativa ajustada para suas operações diárias. Essas histórias do mundo real ajudarão você a explorar uma ampla gama de casos de uso ao vivo. Veja a seguir três exemplos específicos:

  • Suporte ao cliente: uma empresa de soluções de segurança industrial implementou uma ferramenta com tecnologia de IA que imediatamente melhorou suas operações de suporte ao cliente. A equipe usa o Cohere Command R+ LLM ajustado para processar consultas de clientes e gerar respostas precisas.
  • Assistência Médica: Pesquisadores universitários estão usando a IA para dar uma olhada mais profunda nos dados dos pacientes para ajudar a projetar novas terapias contra o câncer. Eles estão usando a infraestrutura de nuvem para hospedar, executar e ajustar LLMs em escala.
  • Setor de serviços: Uma empresa de IA aplicada no Brasil ajusta os LLMs para ajudar na terapia de reminiscência, um tratamento psicológico comprovado que ajuda pacientes que sofrem de declínio cognitivo.

O que vem a seguir no ajuste fino

O ajuste fino de IA está evoluindo rapidamente, especialmente à medida que mais agentes de IA dependem de modelos ajustados. O futuro promete mais automação, novas técnicas e uma ampla gama de opções de modelos que podem ajudar as organizações a adaptar os modelos de IA às suas necessidades.

Essas inovações incluem serviços de ML aprimorados que automatizam o ajuste fino, incluindo otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Esperamos que as técnicas de aumento de dados sensíveis ao contexto ajudem o modelo a aprender recursos mais relevantes com mais rapidez, e a aprendizagem dinâmica permitirá que um modelo ajuste sua taxa de aprendizado rapidamente. E procure construtores de modelos de ML e de base para continuar a lançar modelos mais versáteis e poderosos que podem transferir conhecimento entre diferentes modalidades e podem ser ajustados para executar tarefas que exigem a compreensão de vários tipos de dados. O truque será criar uma infraestrutura de dados versátil o suficiente para aproveitar essas inovações ao chegar.

Aprimore seus modelos de IA com soluções de IA generativa

Você sabia que a Oracle Cloud Infrastructure (OCI) oferece acesso ao que você precisa para ajustar o machine learning e os modelos básicos? A Oracle fornece os serviços de infraestrutura física, infraestrutura de processamento de dados, plataforma de ciência de dados e IA generativa em serviços totalmente gerenciados. O serviço de IA generativa da OCI, por exemplo, oferece uma integração simples e perfeita com LLMs versáteis em um serviço fácil de usar. Use-o para ajustar modelos para uma ampla gama de casos de uso, incluindo assistência por escrito, resumo, análise e bate-papo.

Enquanto isso, seus cientistas de dados e engenheiros de ML podem aproveitar a plataforma de ciência de dados da Oracle para colaborar na criação, no treinamento e na implantação de modelos de ML usando Python e ferramentas de código aberto. Um ambiente baseado em JupyterLab fornece todos os recursos necessários para experimentar, desenvolver modelos e ampliar o treinamento de modelos com GPUs NVIDIA e treinamento distribuído. Leve modelos à produção e mantenha-os íntegros com recursos de operações de ML, como pipelines automatizados, implantações e monitoramento de modelos.

Ajustar um modelo de IA é apenas uma maneira de aproveitar essa tecnologia para superar a concorrência. Confira mais maneiras pelas quais as empresas podem se beneficiar.

Perguntas frequentes sobre ajuste fino

Como o ajuste fino difere de outros tipos de treinamento de modelo?

Modelos de IA de ajuste fino são diferentes do treinamento de modelos de IA do zero. É o processo de adicionar etapas de treinamento a um modelo básico sofisticado, levando a resultados mais relevantes ao contexto em uma tarefa específica. O ajuste fino geralmente requer menos dados e é menos demorado e caro do que criar e treinar um modelo do zero.

O ajuste fino pode ser usado com qualquer tipo de modelo?

O ajuste fino de IA pode ser usado com modelos de base em uma ampla gama de casos de uso, seja reconhecimento de imagem, classificação de texto, geração de linguagem, saídas de áudio ou outras saídas.