O que é aprendizado semissupervisionado?

Michael Chen | Estrategista de Conteúdo | 29 de outubro de 2024

O aprendizado semi-supervisionado é uma forma de machine learning que envolve conjuntos de dados de treinamento rotulados e não rotulados. Como o próprio nome indica, esse método incorpora elementos tanto da aprendizagem supervisionada quanto da não supervisionada. O aprendizado semi-supervisionado usa um processo de duas etapas. Primeiro, o algoritmo de um projeto é inicialmente treinado usando um conjunto de dados rotulado, como no aprendizado supervisionado. Depois disso, o algoritmo avança treinando com um conjunto de dados não rotulado.

O aprendizado semissupervisionado é ideal quando o projeto possui muitos dados de treinamento, mas a maioria ou todos os dados não estão rotulados. No caso de projetos com apenas dados não rotulados disponíveis, o aprendizado semissupervisionado pode ativar e executar projetos fazendo o treinamento inicial com dados rotulados manualmente antes de alternar para dados de treinamento exclusivamente não rotulados. Com os projetos usando essa abordagem, as equipes devem ter cuidado ao rotular manualmente os dados porque eles se tornam a base sobre a qual o restante do projeto é construído.

A decisão de usar o aprendizado semissupervisionado geralmente se resume aos conjuntos de dados disponíveis. Na era do big data, os dados não rotulados estão muito mais disponíveis e acessíveis do que os dados rotulados e, dependendo da origem, seu custo de obtenção será menor.

No entanto, seu projeto pode precisar usar apenas dados não rotulados. Quando isso acontece, as equipes precisam decidir se é útil empregar a natureza exploratória do aprendizado não supervisionado ou investir tempo e dinheiro para rotular parte do conjunto de dados como forma de treinamento inicial do algoritmo.

O que é aprendizado semissupervisionado?

O aprendizado semissupervisionado é uma técnica de machine learning que fica entre o aprendizado supervisionado e o aprendizado não supervisionado. Ele usa dados rotulados e não rotulados para treinar algoritmos e pode fornecer melhores resultados do que usar dados rotulados sozinhos.

Para decidir se o aprendizado semissupervisionado é apropriado para um projeto, as equipes devem fazer perguntas, incluindo:

  • Quais conjuntos de dados estão disponíveis para este projeto?
  • Algum desses conjuntos de dados está rotulado? Um exemplo de rótulos para um conjunto de dados financeiros poderia ser dados de transações com rótulos indicando se uma transação é fraudulenta ou legítima.
  • Se todos os conjuntos de dados não estiverem rotulados, a equipe tem recursos para rotular pelo menos alguns dados?
  • Os objetivos do projeto são mais tangíveis ​​por meio de aprendizado supervisionado ou não supervisionado? Os fatores a serem considerados aqui incluem uma combinação de aspectos práticos e técnicos, como recursos computacionais, orçamento, prazos e resultados desejados.
  • O nosso conjunto de dados rotulados é suficiente para ensinar ao modelo os padrões e características de, por exemplo, transações fraudulentas e legítimas?

As respostas a essas perguntas determinarão a viabilidade. Depois de tomar a decisão de utilizar o aprendizado semissupervisionado, o próximo passo é preparar dois conjuntos de dados de treinamento. O primeiro geralmente é um pequeno conjunto de dados rotulados para fundamentar o treinamento básico do projeto. O segundo é maior (geralmente muito maior) e não está rotulado. Quando o sistema processa o conjunto de dados não rotulados, ele gera pseudo-rótulos usando o que aprendeu com o conjunto rotulado. Esse processo então é iterado para refinar o algoritmo e otimizar o desempenho.

Os tipos mais comuns de aprendizado semissupervisionado são:

  • Autotreinamento: no autotreinamento, o processo utiliza o conjunto de dados rotulados para treinar o algoritmo. Em seguida, o treinamento subsequente gera pseudo-rótulos de alta confiança (probabilidade superior a 99%) para o conjunto de dados não rotulados, de forma que todos os registros possuam rótulos. Em seguida, o sistema treina no conjunto de dados expandido com os dados de treinamento rotulados originais concatenados com o conjunto de dados não rotulados usando pseudo-rótulos. Isso permite o treinamento com volumes de dados maiores em comparação com o conjunto de dados rotulados original.
  • Cotreinamento: com o cotreinamento, o processo pega um pequeno conjunto de dados rotulado e o aborda com duas visualizações distintas (grupos de recursos) com foco em informações complementares e independentes. Cada grupo treina um algoritmo separado e, em seguida, faz previsões em um conjunto de dados não rotulado para classificar pseudo-rótulos para cada modelo resultante. Cada pseudo-rótulo gerado por um classificador (um algoritmo que prevê um rótulo) vem com uma pontuação de probabilidade, e o pseudo-rótulo com a maior pontuação de probabilidade é então adicionado ao outro conjunto de dados de treinamento.

Por exemplo, um modelo de previsão do tempo pode usar um conjunto de dados usando rótulos com medições rotuladas, como velocidade do vento, pressão atmosférica e umidade, enquanto outro modelo usa dados mais gerais, como localização geográfica, data/hora e índices médios de precipitação. Ambos os modelos geram pseudo-rótulos, e quando o modelo de métricas tem uma pontuação de probabilidade maior do que o modelo geral, esse pseudo-rótulo é aplicado ao modelo geral e vice-versa.

Cada método continua o treinamento para refinar áreas com resultados de baixa probabilidade até que um modelo final abrangente seja produzido.

Vantagens e desvantagens do aprendizado semissupervisionado

Prós Contras
Menor custo. Ao aproveitar dados não rotulados, o aprendizado semissupervisionado reduz a necessidade de rotulagem manual extensiva de dados, economizando tempo e dinheiro. Sensibilidade à qualidade dos dados rotulados. A precisão e a relevância dos dados rotulados impactam significativamente o desempenho do modelo, portanto, é necessário investir cuidado e recursos para garantir uma rotulagem de qualidade.
Desempenho aprimorado do modelo. Em muitos casos, os modelos de aprendizado semissupervisionado podem alcançar uma precisão melhor em comparação com os modelos treinados apenas com dados rotulados, especialmente quando os dados rotulados são escassos. Não adequado para conjuntos de dados complexos e diversos. O modelo pode ter dificuldades em encontrar relações significativas entre dados rotulados e não rotulados se a estrutura subjacente for muito complexa.
Efetivo para dados não estruturados. A aprendizado semissupervisionado é particularmente adequado para tarefas como categorização de texto, vídeo ou áudio, onde os dados não rotulados são frequentemente abundantes. Transparência limitada. Entender como um modelo de aprendizado semissupervisionado chega às suas previsões e verificar sua precisão pode ser mais desafiador em comparação com o aprendizado supervisionado.

O machine learning semissupervisionado combina a estrutura de lançamento de um projeto usando aprendizado supervisionado com os benefícios do aprendizado não supervisionado, como detecção avançada de anomalias e a capacidade de descobrir padrões e estruturas ocultas em dados não rotulados. Embora não seja adequado para todas as situações, sua flexibilidade inerente o torna uma opção viável para uma ampla gama de requisitos e objetivos de projetos.

As empresas com dificuldade para desenvolver uma estratégia de IA podem descobrir que a criação de um centro de excelência as coloca no caminho do sucesso sustentável. Saiba por que e obtenha um roteiro para criar seu CoE agora.

Perguntas frequentes sobre aprendizado semissupervisionado

Em que situações o aprendizado semissupervisionado é normalmente utilizado?

O aprendizado semissupervisionado funciona melhor quando os projetos têm acesso apenas a dados que são, em sua maioria, não rotulados. Nessas circunstâncias, as equipes podem rotular manualmente um subconjunto de dados para criar o conjunto de dados de treinamento para a primeira etapa e permitir que o modelo explore o conjunto de dados não rotulado.

Qual é a diferença entre aprendizado supervisionado e não supervisionado?

O aprendizado não supervisionado permite que os modelos explorem conjuntos de dados não rotulados com o objetivo de descobrir padrões e relações entre entradas e saídas por conta própria. O aprendizado semissupervisionado usa esse método, mas com uma etapa precursora do treinamento do algoritmo em um pequeno conjunto de dados rotulados para construir uma direção fundamental para o projeto.

Quais são alguns prós e contras do aprendizado semissupervisionado?

As vantagens do aprendizado semissupervisionado incluem:

  • Ela utiliza conjuntos de dados rotulados e não rotulados.
  • Há melhores recursos para dados não estruturados, como grandes volumes de texto, vídeo ou áudio.
  • Utiliza conjuntos de dados não rotulados mais acessíveis e mais econômicos.
  • Melhor desempenho do modelo, especialmente com dados limitados.

As desvantagens do aprendizado semissupervisionado incluem:

  • Pode ser necessário tempo e dinheiro para rotular manualmente um conjunto de dados de treinamento.
  • Pode apresentar menor precisão e transparência em comparação com o aprendizado supervisionado com conjuntos de dados rotulados quanto à qualidade.
  • Não é adequado para alguns tipos de projetos, como aqueles com diretrizes rigorosas ou que exigem altos padrões de precisão para segurança.
  • Não adequado a conjuntos de dados complexos e diversos.