Michael Chen | Estrategista de Conteúdo | 29 de outubro de 2024
O aprendizado semi-supervisionado é uma forma de machine learning que envolve conjuntos de dados de treinamento rotulados e não rotulados. Como o próprio nome indica, esse método incorpora elementos tanto da aprendizagem supervisionada quanto da não supervisionada. O aprendizado semi-supervisionado usa um processo de duas etapas. Primeiro, o algoritmo de um projeto é inicialmente treinado usando um conjunto de dados rotulado, como no aprendizado supervisionado. Depois disso, o algoritmo avança treinando com um conjunto de dados não rotulado.
O aprendizado semissupervisionado é ideal quando o projeto possui muitos dados de treinamento, mas a maioria ou todos os dados não estão rotulados. No caso de projetos com apenas dados não rotulados disponíveis, o aprendizado semissupervisionado pode ativar e executar projetos fazendo o treinamento inicial com dados rotulados manualmente antes de alternar para dados de treinamento exclusivamente não rotulados. Com os projetos usando essa abordagem, as equipes devem ter cuidado ao rotular manualmente os dados porque eles se tornam a base sobre a qual o restante do projeto é construído.
A decisão de usar o aprendizado semissupervisionado geralmente se resume aos conjuntos de dados disponíveis. Na era do big data, os dados não rotulados estão muito mais disponíveis e acessíveis do que os dados rotulados e, dependendo da origem, seu custo de obtenção será menor.
No entanto, seu projeto pode precisar usar apenas dados não rotulados. Quando isso acontece, as equipes precisam decidir se é útil empregar a natureza exploratória do aprendizado não supervisionado ou investir tempo e dinheiro para rotular parte do conjunto de dados como forma de treinamento inicial do algoritmo.
O aprendizado semissupervisionado é uma técnica de machine learning que fica entre o aprendizado supervisionado e o aprendizado não supervisionado. Ele usa dados rotulados e não rotulados para treinar algoritmos e pode fornecer melhores resultados do que usar dados rotulados sozinhos.
Para decidir se o aprendizado semissupervisionado é apropriado para um projeto, as equipes devem fazer perguntas, incluindo:
As respostas a essas perguntas determinarão a viabilidade. Depois de tomar a decisão de utilizar o aprendizado semissupervisionado, o próximo passo é preparar dois conjuntos de dados de treinamento. O primeiro geralmente é um pequeno conjunto de dados rotulados para fundamentar o treinamento básico do projeto. O segundo é maior (geralmente muito maior) e não está rotulado. Quando o sistema processa o conjunto de dados não rotulados, ele gera pseudo-rótulos usando o que aprendeu com o conjunto rotulado. Esse processo então é iterado para refinar o algoritmo e otimizar o desempenho.
Os tipos mais comuns de aprendizado semissupervisionado são:
Por exemplo, um modelo de previsão do tempo pode usar um conjunto de dados usando rótulos com medições rotuladas, como velocidade do vento, pressão atmosférica e umidade, enquanto outro modelo usa dados mais gerais, como localização geográfica, data/hora e índices médios de precipitação. Ambos os modelos geram pseudo-rótulos, e quando o modelo de métricas tem uma pontuação de probabilidade maior do que o modelo geral, esse pseudo-rótulo é aplicado ao modelo geral e vice-versa.
Cada método continua o treinamento para refinar áreas com resultados de baixa probabilidade até que um modelo final abrangente seja produzido.
| Prós | Contras |
|---|---|
| Menor custo. Ao aproveitar dados não rotulados, o aprendizado semissupervisionado reduz a necessidade de rotulagem manual extensiva de dados, economizando tempo e dinheiro. | Sensibilidade à qualidade dos dados rotulados. A precisão e a relevância dos dados rotulados impactam significativamente o desempenho do modelo, portanto, é necessário investir cuidado e recursos para garantir uma rotulagem de qualidade. |
| Desempenho aprimorado do modelo. Em muitos casos, os modelos de aprendizado semissupervisionado podem alcançar uma precisão melhor em comparação com os modelos treinados apenas com dados rotulados, especialmente quando os dados rotulados são escassos. | Não adequado para conjuntos de dados complexos e diversos. O modelo pode ter dificuldades em encontrar relações significativas entre dados rotulados e não rotulados se a estrutura subjacente for muito complexa. |
| Efetivo para dados não estruturados. A aprendizado semissupervisionado é particularmente adequado para tarefas como categorização de texto, vídeo ou áudio, onde os dados não rotulados são frequentemente abundantes. | Transparência limitada. Entender como um modelo de aprendizado semissupervisionado chega às suas previsões e verificar sua precisão pode ser mais desafiador em comparação com o aprendizado supervisionado. |
O machine learning semissupervisionado combina a estrutura de lançamento de um projeto usando aprendizado supervisionado com os benefícios do aprendizado não supervisionado, como detecção avançada de anomalias e a capacidade de descobrir padrões e estruturas ocultas em dados não rotulados. Embora não seja adequado para todas as situações, sua flexibilidade inerente o torna uma opção viável para uma ampla gama de requisitos e objetivos de projetos.
As empresas com dificuldade para desenvolver uma estratégia de IA podem descobrir que a criação de um centro de excelência as coloca no caminho do sucesso sustentável. Saiba por que e obtenha um roteiro para criar seu CoE agora.
Em que situações o aprendizado semissupervisionado é normalmente utilizado?
O aprendizado semissupervisionado funciona melhor quando os projetos têm acesso apenas a dados que são, em sua maioria, não rotulados. Nessas circunstâncias, as equipes podem rotular manualmente um subconjunto de dados para criar o conjunto de dados de treinamento para a primeira etapa e permitir que o modelo explore o conjunto de dados não rotulado.
Qual é a diferença entre aprendizado supervisionado e não supervisionado?
O aprendizado não supervisionado permite que os modelos explorem conjuntos de dados não rotulados com o objetivo de descobrir padrões e relações entre entradas e saídas por conta própria. O aprendizado semissupervisionado usa esse método, mas com uma etapa precursora do treinamento do algoritmo em um pequeno conjunto de dados rotulados para construir uma direção fundamental para o projeto.
Quais são alguns prós e contras do aprendizado semissupervisionado?
As vantagens do aprendizado semissupervisionado incluem:
As desvantagens do aprendizado semissupervisionado incluem: