Jeffrey Erickson | Escritor Sênior | 25 de fevereiro de 2025
À medida que a IA se torna mais útil para as empresas e os agentes de IA, em particular, assumem fluxos de trabalho mais complexos, o ajuste fino da IA será uma parte importante da história. Esses agentes podem responder a perguntas sobre dados e tomar medidas em nosso nome, como escrever código, gerenciar calendários, apresentar insights analíticos e muito mais. Ao longo do caminho, os modelos de IA terão que trabalhar juntos para investigar dados e armazenamentos de documentos, coletar informações, verificar novamente sua precisão, acionar as ações certas e comunicá-las. Os sofisticados modelos de IA envolvidos serão bem versados em padrões gerais de linguagem, mas também precisarão ser otimizados para domínios específicos com sua própria linguagem, base de conhecimento e muito mais. Como o processo de ajuste fino pode ajudar um modelo de IA e futuros agentes de IA a acertar as nuances e os detalhes? Vamos explorar aspectos do ajuste fino do modelo de IA abaixo.
O ajuste fino do modelo de IA é o processo que os cientistas de dados e engenheiros de machine learning (ML) usam para adaptar um modelo de ML treinado para ter melhor desempenho em uma tarefa específica. O ajuste fino, por exemplo, pode ser usado para obter um grande modelo de linguagem (LLM) de uso geral, como o Comando da Cohere ou o Llama 2 da Meta, e torná-lo mais familiar em um ambiente de assistência médica ou em uma função de atendimento ao cliente.
Esses modelos de uso geral, às vezes chamados de "modelos de base", são treinados em grandes conjuntos de dados gerais, como dados de quase toda a internet aberta. Isso os ajuda a aprender e entender uma ampla gama de recursos e padrões. Alguns têm um bom controle sobre a linguagem; outros podem reconhecer e manipular dados multimodais, como imagens, vídeo e áudio, bem como texto.
O ajuste fino pega esse modelo sofisticado e continua seu treinamento em um conjunto de dados menor extraído de uma tarefa ou domínio de negócios específico. Isso dá ao modelo uma compreensão da taxonomia, do contexto e até mesmo do conhecimento especializado nesse campo.
A ideia é manter o vasto conhecimento do regime de treinamento original do modelo, ao mesmo tempo em que lhe dá uma melhor compreensão das nuances e detalhes do domínio onde o modelo de IA estará funcionando. Por exemplo, um modelo de IA de uso geral pode ser ajustado para ler e discutir imagens médicas ou um chatbot orientado por LLM que se torna mais fluente em dialetos locais pode ser ajustado para melhorar seu papel no atendimento ao cliente. A corrida para construir agentes de IA altamente capazes em uma ampla gama de domínios geralmente dependerá de modelos ajustados. Aqui está uma discussão mais profunda dos métodos e mecanismos de ajuste fino.
Principais Conclusões
Um dos principais desafios que as equipes enfrentam ao realizar o ajuste fino de IA é a disponibilidade de dados de alta qualidade e rotulados relevantes para seus casos de uso. A aquisição ou a criação desses dados pode ser cara e demorada. Por exemplo, rotular dados pode significar horas de áreas de observação em imagens que uma IA deve aprender a reconhecer ou rotular seções de texto para destacar informações importantes. Ainda assim, o ajuste fino oferece vantagens atraentes que o tornam uma técnica crucial no desenvolvimento moderno de IA. Vejamos alguns prós e contras.
O ajuste fino de IA funciona usando modelos existentes como pontos de partida. Esses modelos básicos, como o Meta's Llama 2 ou o Cohere's Command, geralmente estão disponíveis em provedores de nuvem. Muitas organizações levarão outros modelos para suas plataformas de ciência de dados de repositórios centralizados, como Hugging Face, Hub TensorFlow e Hub PyTorch, que hospedam modelos de aprendizado de máquina pré-treinados.
Começar com um Modelo Pré-treinado
Escolha um modelo que seja adequado à sua tarefa, seja classificando texto, analisando sentimentos, respondendo perguntas, escrevendo artigos, gerando código, detectando objetos ou qualquer outro trabalho que exija IA ou ML.
O ajuste fino de um modelo de IA requer três ingredientes básicos: uma coleção de dados devidamente formatados, o modelo básico certo e uma infraestrutura que fornece as redes neurais para aprendizado profundo e as GPUs para alimentar o regime de treinamento. Esses recursos geralmente são montados em uma plataforma de ciência de dados ou, mais recentemente, em um serviço de nuvem de IA generativa.
Como acontece frequentemente com a tecnologia, o processo de ajuste fino da IA ficou mais fácil ao longo do tempo, graças a novas ferramentas e serviços de infraestrutura de projetos de código aberto e equipes de desenvolvimento de provedores de nuvem. Essas ferramentas e serviços estão ajudando a automatizar o ajuste fino, incluindo tarefas complexas que discutiremos, como otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Isso torna o processo mais acessível para os não especialistas.
De fato, observadores da indústria notaram que as ferramentas se tornaram tão boas em abstrair as minúcias da ciência de dados de ajuste fino que a parte mais difícil agora é coletar e formatar o melhor conjunto de dados possível. Aqui também existem bibliotecas de dados prontas para vários domínios, como saúde e finanças, e recursos, como visão computacional, análise de sentimentos ou detecção de anomalias. Na verdade, uma tendência crescente é usar um modelo para o seu caso de uso que já foi ajustado para essa tarefa usando essas bibliotecas. A partir daí, a organização pode ajustar ainda mais usando um conjunto de dados menor e, talvez, usar uma geração aumentada de recuperação, ou RAG, arquitetura para melhorar ainda mais as saídas de IA.
As empresas encontraram maneiras de complementar os métodos tradicionais de ajuste fino com uma técnica chamada aprendizado de reforço. Isso permite que os modelos de IA aprendam por meio de tentativa e erro e autoaperfeiçoamento, em vez de usar um processo separado de rotulagem de conjuntos de dados e ajuste fino supervisionado.
Como Ajustar um Modelo de IA em Quatro Etapas
1. Usar um modelo pré-treinado: A primeira etapa é selecionar um modelo básico apropriado à tarefa. Existem modelos populares para processamento de linguagem natural, visão computacional, geração de texto e outras áreas.
2. Adicionar novos dados: em seguida, reúna e prepare um conjunto de dados específico da tarefa. Eles podem consistir em análises de clientes rotuladas ou perguntas e respostas de amostra no domínio que seu modelo deve abordar.
3. Ajustar: a terceira etapa é ajustar o modelo conforme necessário. Os ajustes podem incluir camadas de congelamento para preservar a aprendizagem anterior do modelo; ajustar a taxa de aprendizagem, o que também pode ajudar a preservar o conhecimento existente do modelo; e adicionar camadas onde tarefas completamente novas são aprendidas, como uma camada de classificação para uma classificação de texto ou uma camada de regressão para previsões.
4. Treinar o modelo: Esse processo envolve a alimentação dos novos dados por meio do modelo e a atualização dos parâmetros do modelo. O objetivo é refinar o desempenho do modelo de sua tarefa, mantendo o conhecimento geral de seu treinamento inicial.
Ao ajustar um modelo, há uma variedade de técnicas disponíveis para escolher. A primeira decisão é se você precisa de ajuste fino completo ou seletivo.
O ajuste fino completo é um processo em que todas as camadas e parâmetros de um modelo básico são atualizados durante o processo de treinamento. Esta é uma boa escolha quando você tem um conjunto de dados grande e diversificado que pode atualizar adequadamente os parâmetros do modelo sem risco de sobreajuste.
O ajuste fino seletivo envolve a atualização de apenas um subconjunto das camadas ou parâmetros do modelo usando um conjunto de dados menor. Este método é bom para preservar o conhecimento geral do modelo básico e reduzir o tempo e o custo computacional do regime de treinamento. Aqui estão exemplos de técnicas para ajuste fino seletivo.
Em alguns casos de uso, faz sentido projetar e treinar seu modelo de IA do zero. Na maioria dos casos, no entanto, uma organização pode obter o resultado desejado, ajustando um modelo básico.
Treinar um modelo de IA do zero pode ser a melhor escolha em alguns casos. Um exemplo é quando o domínio em que você está trabalhando é muito rigoroso, como um aplicativo médico de nicho com dados de imagem talvez muito específicos. O treinamento do zero exige que você monte um grande conjunto de dados e execute longos ciclos de treinamento em infraestrutura específica de IA. Isso pode ser caro, exigindo até milhares de GPUs e milhões de dólares. É também uma tarefa em que a experiência de cientistas de dados e engenheiros de ML será necessária.
Por outro lado, ajustar um modelo de IA envolve pegar um modelo básico e adaptá-lo a uma tarefa específica usando um conjunto de dados menor e específico da tarefa. Este processo é muitas vezes mais rápido e eficiente porque o modelo começa com uma base sólida em linguagem e conhecimento geral e só precisa se ajustar às nuances da nova tarefa. Isso pode melhorar o desempenho do modelo de IA para suas necessidades com menos trabalho de montagem e preparação de dados e muito menos etapas de treinamento em comparação com o treinamento do zero. Veja mais sobre os benefícios do ajuste fino abaixo.
Uma ampla gama de empresas em todos os setores, de startups a corporações multinacionais, são modelos pré-treinados de ajuste fino. Na verdade, está se tornando uma prática padrão para qualquer organização que queira usar IA, pois permite implantar sistemas adaptados às suas necessidades específicas sem o enorme investimento necessário para o treinamento de modelos em larga escala. Aqui estão alguns exemplos de caso de uso.
As organizações que trabalham em finanças, logística, assistência médica e muitos outros domínios estão trazendo a IA generativa ajustada para suas operações diárias. Essas histórias do mundo real ajudarão você a explorar uma ampla gama de casos de uso ao vivo. Veja a seguir três exemplos específicos:
O ajuste fino de IA está evoluindo rapidamente, especialmente à medida que mais agentes de IA dependem de modelos ajustados. O futuro promete mais automação, novas técnicas e uma ampla gama de opções de modelos que podem ajudar as organizações a adaptar os modelos de IA às suas necessidades.
Essas inovações incluem serviços de ML aprimorados que automatizam o ajuste fino, incluindo otimização de hiperparâmetros, seleção de modelos e pré-processamento de dados. Esperamos que as técnicas de aumento de dados sensíveis ao contexto ajudem o modelo a aprender recursos mais relevantes com mais rapidez, e a aprendizagem dinâmica permitirá que um modelo ajuste sua taxa de aprendizado rapidamente. E procure construtores de modelos de ML e de base para continuar a lançar modelos mais versáteis e poderosos que podem transferir conhecimento entre diferentes modalidades e podem ser ajustados para executar tarefas que exigem a compreensão de vários tipos de dados. O truque será criar uma infraestrutura de dados versátil o suficiente para aproveitar essas inovações ao chegar.
Você sabia que a Oracle Cloud Infrastructure (OCI) oferece acesso ao que você precisa para ajustar o machine learning e os modelos básicos? A Oracle fornece os serviços de infraestrutura física, infraestrutura de processamento de dados, plataforma de ciência de dados e IA generativa em serviços totalmente gerenciados. O serviço de IA generativa da OCI, por exemplo, oferece uma integração simples e perfeita com LLMs versáteis em um serviço fácil de usar. Use-o para ajustar modelos para uma ampla gama de casos de uso, incluindo assistência por escrito, resumo, análise e bate-papo.
Enquanto isso, seus cientistas de dados e engenheiros de ML podem aproveitar a plataforma de ciência de dados da Oracle para colaborar na criação, no treinamento e na implantação de modelos de ML usando Python e ferramentas de código aberto. Um ambiente baseado em JupyterLab fornece todos os recursos necessários para experimentar, desenvolver modelos e ampliar o treinamento de modelos com GPUs NVIDIA e treinamento distribuído. Leve modelos à produção e mantenha-os íntegros com recursos de operações de ML, como pipelines automatizados, implantações e monitoramento de modelos.
Ajustar um modelo de IA é apenas uma maneira de aproveitar essa tecnologia para superar a concorrência. Confira mais maneiras pelas quais as empresas podem se beneficiar.
Como o ajuste fino difere de outros tipos de treinamento de modelo?
Modelos de IA de ajuste fino são diferentes do treinamento de modelos de IA do zero. É o processo de adicionar etapas de treinamento a um modelo básico sofisticado, levando a resultados mais relevantes ao contexto em uma tarefa específica. O ajuste fino geralmente requer menos dados e é menos demorado e caro do que criar e treinar um modelo do zero.
O ajuste fino pode ser usado com qualquer tipo de modelo?
O ajuste fino de IA pode ser usado com modelos de base em uma ampla gama de casos de uso, seja reconhecimento de imagem, classificação de texto, geração de linguagem, saídas de áudio ou outras saídas.