Michael Chen | Content Strategist | 2024년 10월 29일
반지도 학습은 레이블이 있는 학습 데이터 세트와 레이블이 없는 학습 데이터 세트를 모두 포함하는 머신러닝의 한 형태입니다. 그 이름과 같이, 이 방법은 지도 학습과 비지도 학습의 요소를 통합합니다. 반지도 학습은 2단계 프로세스를 사용합니다. 첫째, 프로젝트의 알고리즘은 초기에 지도 학습에서와 같이 레이블이 있는 데이터 세트를 사용하여 학습됩니다. 그 후 알고리즘은 레이블이 없는 데이터 세트를 학습합니다.
반지도 학습은 프로젝트에 많은 학습 데이터가 있지만 대부분 또는 모든 데이터에 레이블이 없는 경우에 이상적입니다. 레이블이 없는 데이터만 있는 프로젝트의 경우 반지도 학습은 레이블이 없는 학습 데이터로만 전환하기 전에 수동으로 레이블이 지정된 데이터로 초기 교육을 수행하여 프로젝트를 시작하고 실행할 수 있습니다. 이 접근 방식을 사용하는 프로젝트를 통해 팀은 데이터에 수동으로 레이블을 지정할 때 주의를 기울여야 합니다. 이는 나머지 프로젝트가 구축되는 기반이 되기 때문입니다.
반지도 학습을 사용할지 여부에 대한 결정은 종종 사용 가능한 데이터 세트를 지반으로 내려집니다. 빅 데이터 시대에 레이블이 없는 데이터는 레이블이 있는 데이터보다 훨씬 더 많은 가용성과 액세스가 가능하며 소스에 따라 얻는 데 드는 비용이 줄어듭니다.
그래도 프로젝트는 레이블이 없는 데이터만을 사용해야 할 수도 있습니다. 이 경우 팀은 비지도 학습의 탐색적 특성을 사용하는 것이 유용한지 여부, 데이터 세트의 일부를 초기 알고리즘 교육 수단으로 레이블 지정하는 데 시간과 비용을 소비하는 것이 유용한지 여부를 결정해야 합니다.
반지도 학습은 지도 학습과 비지도 학습 사이에 놓인 머신러닝 기술입니다. 레이블이 있는 데이터와 레이블이 없는 데이터를 모두 사용하여 알고리즘을 학습시키고 레이블이 있는 데이터만 사용하는 것보다 더 나은 결과를 제공할 수 있습니다.
반지도 학습이 프로젝트에 적합한지 여부를 결정하려면 팀이 다음을 포함한 질문을 해야 합니다.
이 질문에 대한 대답은 타당성을 결정합니다. 반지도 학습으로 결정되면 다음 단계는 두 개의 학습 데이터 세트를 준비하는 것입니다. 첫 번째는 일반적으로 프로젝트의 기본 교육을 고정시키는 작은 레이블의 데이터 세트입니다. 두 번째 학습 데이터 세트는 더 크고 레이블이 없는 경우가 많습니다. 레이블이 없는 데이터 세트를 처리하면 레이블이 있는 세트에서 얻은 내용을 사용하여 의사 레이블이 생성됩니다. 그런 다음 이 프로세스를 반복하여 알고리즘을 세분화하고 성능을 최적화합니다.
반지도 학습의 가장 일반적인 유형은 다음과 같습니다.
예를 들어 일기 예보 모델은 풍속, 대기압 및 습도와 같은 기록된 측정지표의 레이블을 사용하여 데이터 세트로 시작할 수 있으며, 다른 모델은 지리적 위치, 날짜/시간 및 기록된 평균 강수량과 같은 보다 일반적인 데이터를 사용합니다. 두 모델 모두 의사 레이블을 생성하고 척도 모델에 일반 모델보다 높은 확률 점수가 있는 경우 의사 레이블이 일반 모델에 적용되고 그 반대의 경우도 마찬가지입니다.
각 방법은 포괄적인 최종 모델이 생성될 때까지 낮은 확률의 결과로 영역을 세분화하는 교육을 계속합니다.
| 장점 | 단점 |
|---|---|
| 비용 절감. 반지도 학습은 레이블이 없는 데이터를 활용하여 광범위한 수동 데이터 레이블 지정의 필요성을 줄여 시간과 비용을 절약합니다. | 레이블이 있는 데이터의 품질에 대한 민감성. 레이블이 있는 데이터의 정확성과 관련성은 모델의 성능에 큰 영향을 미치므로 품질 레이블 지정을 보장하기 위해 관리 및 비용을 할당해야 합니다. |
| 모델 성능 향상. 대부분의 경우, 반지도 학습 모델은 레이블이 있는 데이터에서만 학습된 모델, 특히 레이블이 있는 데이터가 부족한 경우의 정확도를 높일 수 있습니다. | 복잡하고 다양한 데이터 세트에 적합하지 않음. 기본 구조가 너무 복잡하면 레이블이 있는 데이터와 레이블이 없는 데이터 간에 의미 있는 관계를 찾는 데 문제가 있을 수 있습니다. |
| 비구조적 데이터에 효과적. 반지도 학습은 특히 레이블이 없는 데이터가 풍부한 텍스트, 비디오 또는 오디오 분류와 같은 작업에 적합합니다. | 투명성 제한. 반지도 학습 모델이 예측에 도달하고 정확성을 확인하는 방법을 이해하는 것은 지도 학습에 비해 더 어려울 수 있습니다. |
반지도 머신러닝은 지도 학습을 사용하여 프로젝트를 시작하는 구조와 고급 이상 감지, 레이블이 없는 데이터 내에서 숨겨진 패턴 및 구조를 발견하는 기능 등 비지도 학습의 이점을 결합합니다. 모든 상황에 적합하지는 않지만 고유한 유연성으로 인해 광범위한 프로젝트 요구 사항 및 목표에 대해 실현 가능한 옵션이 됩니다.
AI 전략을 개발하는 데 어려움을 겪고 있는 기업은 Center of Excellence를 구축해 지속 가능한 성공의 길을 찾을 수 있습니다. 그 이유를 살펴보고 CoE 구축을 위한 로드맵을 구축해 보세요.
반지도 학습은 일반적으로 어떤 상황에서 사용됩니까?
반지도 학습은 프로젝트를 위해 레이블이 없는 데이터에만, 또는 대부분 그러한 데이터만 액세스할 수 있는 경우에 가장 효과적입니다. 이러한 상황에서 팀은 수동으로 데이터 하위 세트에 레이블을 지정하여 첫 번째 단계에 대한 교육 데이터 세트를 생성하고, 다음 단계로 모델이 레이블이 없는 데이터 세트를 탐색하도록 합니다.
반지도 학습과 비지도 학습의 차이점은 무엇입니까?
비지도 학습을 통해 모델은 입력과 출력 간의 패턴 및 관계를 자체적으로 발견하기 위해 레이블이 없는 데이터 세트를 탐색할 수 있습니다. 반지도 학습에서는 이 방법을 사용하지만, 프로젝트에 대한 기본 방향을 작성하기 위해 작은 레이블이 있는 데이터 세트에 대해 알고리즘을 교육하는 사전 준비 단계가 있습니다.
반지도 학습의 장단점은 무엇입니까?
반지도 학습의 장점은 다음과 같습니다.
반지도 학습에는 다음이 포함됩니다.