Michael Chen | Estrategista de Conteúdo | 29 de outubro de 2024
O aprendizado semisupervisionado é uma forma de machine learning que envolve conjuntos de dados de treinamento rotulados e não rotulados. Como inferido pelo seu nome, este método incorpora elementos de aprendizagem supervisionada e aprendizagem não supervisionada. O aprendizado semisupervisionado usa um processo de duas etapas. Primeiro, o algoritmo de um projeto é inicialmente treinado usando um conjunto de dados rotulado, como no aprendizado supervisionado. Depois disso, o algoritmo avança treinando com um conjunto de dados não rotulado.
O aprendizado semisupervisionado é ideal quando os projetos têm muitos dados de treinamento, mas a maioria ou tudo é não rotulado. No caso de projetos com apenas dados não rotulados disponíveis, o aprendizado semisupervisionado pode colocar os projetos em funcionamento fazendo o treinamento inicial com dados rotulados manualmente antes de alternar para dados de treinamento exclusivamente não rotulados. Com os projetos usando essa abordagem, as equipes devem ter cuidado ao rotular manualmente os dados porque eles se tornam a base sobre a qual o resto do projeto é construído.
A decisão de usar o aprendizado semisupervisionado geralmente se resume aos conjuntos de dados disponíveis. Na era do big data, os dados não rotulados estão muito mais disponíveis e acessíveis do que os dados rotulados e, dependendo da origem, custará menos para obter.
Ainda assim, um projeto pode ter que avançar com apenas dados não rotulados. Quando isso acontece, as equipes devem decidir se é útil empregar a natureza exploratória do aprendizado não supervisionado em vez de gastar tempo e dinheiro para rotular parte do conjunto de dados como um meio de treinamento inicial do algoritmo.
O aprendizado semisupervisionado é uma técnica de machine learning que fica entre o aprendizado supervisionado e o aprendizado não supervisionado. Ele usa dados rotulados e não rotulados para treinar algoritmos e pode fornecer melhores resultados do que usar dados rotulados sozinhos.
Para decidir se a aprendizagem semisupervisionada é apropriada para um projeto, as equipes devem fazer perguntas, incluindo:
As respostas a essas perguntas determinarão a viabilidade. Uma vez que a decisão é tomada para ir com a aprendizagem semisupervisionada, o próximo passo é preparar dois conjuntos de dados de treinamento. O primeiro é geralmente um pequeno conjunto de dados rotulado para ancorar o treinamento básico do projeto. O segundo conjunto de dados de treinamento é maior — muitas vezes muito maior — e não rotulado. Quando o sistema processa o conjunto de dados não rotulado, ele gera pseudo-rótulos usando o que aprendeu com o conjunto rotulado. Esse processo então é iterado para refinar o algoritmo e otimizar o desempenho.
Os tipos mais comuns de aprendizagem semisupervisionada são:
Por exemplo, um modelo de previsão do tempo pode começar com um conjunto de dados usando rótulos em métricas registradas, como velocidade do vento, pressão atmosférica e umidade, enquanto o outro modelo usa dados mais generalizados, como localização geográfica, data/hora e precipitação média registrada. Ambos os modelos geram pseudo-rótulos, e quando o modelo de métricas tem uma pontuação de probabilidade maior do que o modelo geral, esse pseudo-rótulo é aplicado ao modelo geral e vice-versa.
Cada método continua treinando para refinar áreas com resultados de baixa probabilidade até que um modelo final abrangente seja produzido.
| Prós | Contras |
|---|---|
| Menor custo. Ao aproveitar dados não rotulados, o aprendizado semisupervisionado reduz a necessidade de rotulagem manual extensiva de dados, economizando tempo e dinheiro. | Sensível à qualidade de dados rotulada. A precisão e a relevância dos dados rotulados afetam significativamente o desempenho do modelo, portanto, o cuidado e o dinheiro precisam ser alocados para garantir a rotulagem de qualidade. |
| Desempenho aprimorado do modelo. Em muitos casos, os modelos de aprendizagem semisupervisionados podem obter melhor precisão em comparação com os modelos treinados apenas em dados rotulados, especialmente quando os dados rotulados são escassos. | Não adequado a conjuntos de dados complexos e diversos. O modelo pode ter dificuldade em encontrar relações significativas entre dados rotulados e não rotulados se a estrutura subjacente for muito complexa. |
| Efetivo para dados não estruturados. A aprendizagem semisupervisionada é particularmente adequada para tarefas como texto, vídeo ou categorização de áudio, onde dados não rotulados são frequentemente abundantes. | Transparência limitada. Entender como um modelo de aprendizado semisupervisionado chega às suas previsões e verificar a precisão pode ser mais desafiador em comparação com o aprendizado supervisionado. |
O machine learning semisupervisionado combina a estrutura de lançamento de um projeto usando aprendizado supervisionado com os benefícios do aprendizado não supervisionado, como detecção avançada de anomalias e a capacidade de descobrir padrões e estruturas ocultos dentro de dados não rotulados. Embora não seja adequado para todas as situações, sua flexibilidade inerente torna uma opção viável para um amplo espectro de necessidades e objetivos do projeto.
As empresas que lutam para desenvolver uma estratégia de IA podem achar que estabelecer um centro de excelência as coloca em um caminho para o sucesso sustentável. Saiba por que e obtenha um roteiro para criar seu CoE agora.
Em que situações a aprendizagem semisupervisionada é normalmente usada?
A aprendizagem semisupervisionada funciona melhor quando os projetos têm acesso apenas a dados ou, na maioria das vezes, a dados não rotulados. Nessas circunstâncias, as equipes podem rotular manualmente um subconjunto de dados para criar o conjunto de dados de treinamento para a primeira etapa e permitir que o modelo explore o conjunto de dados não rotulado.
Qual é a diferença entre aprendizagem semisupervisionada e não supervisionada?
O aprendizado não supervisionado permite que os modelos explorem conjuntos de dados não rotulados com o objetivo de descobrir padrões e relações entre entradas e saídas por conta própria. A aprendizagem semisupervisionada usa esse método, mas com uma etapa precursora de treinamento do algoritmo em um pequeno conjunto de dados rotulados para construir uma direção fundamental para o projeto.
Quais são alguns prós e contras da aprendizagem semisupervisionada?
Os prós da aprendizagem semisupervisionada incluem:
Os contras da aprendizagem semisupervisionada incluem: