Michael Chen | Content Strategist | 2024년 10월 29일
반지도 학습은 라벨링된 훈련 데이터 세트와 라벨링되지 않은 훈련 데이터 세트를 모두 사용하는 머신러닝 방법입니다. 이름에서 알 수 있듯이, 이 방법은 지도 학습 및 비지도 학습 요소를 모두 활용합니다. 반지도 학습은 2단계로 이뤄집니다. 먼저 프로젝트의 알고리즘은 지도 학습과 마찬가지로 라벨링된 데이터 세트를 사용하여 초기 훈련을 받습니다. 그 이후 알고리즘은 라벨링되지 않은 데이터 세트로 훈련받게 됩니다.
반지도 학습은 프로젝트용 훈련 데이터의 양은 많지만 그 중 대부분 또는 전부가 라벨링되지 않은 경우에 사용하기 적합합니다. 라벨링되지 않은 데이터만 이용 가능한 프로젝트의 경우, 반지도 학습을 사용하는 프로젝트는 수동으로 라벨링된 데이터로 초기 훈련을 수행한 후 라벨링되지 않은 훈련 데이터로 전환하는 방식으로 진행됩니다. 이같은 접근 방식을 사용하는 프로젝트에서는 데이터 수동 라벨링에 특히 주의를 기울여야 합니다. 프로젝트의 나머지 부분이 구축되는 기반이 되기 때문입니다.
반지도 학습 사용 여부는 주로 이용 가능한 데이터 세트에 따라 결정됩니다. 빅데이터 시대에는 라벨링된 데이터보다 라벨링되지 않은 데이터가 훨씬 더 많고, 액세스하기도 용이하고, 출처에 따라서는 획득 비용도 더 저렴합니다.
때로는 라벨링되지 않은 데이터만으로 프로젝트를 진행해야 하는 경우도 있습니다. 그러한 경우 프로젝트 팀은 초기 알고리즘 훈련을 위해 데이터 세트 일부를 라벨링하는 것이 좋을지, 또는 비지도 학습의 탐색적 특성을 활용하는 것이 좋을지 여부를 판단해야 합니다.
반지도 학습은 지도 학습과 비지도 학습 사이에 위치하는 머신러닝 기법입니다. 반지도 학습은 라벨링된 데이터와 라벨링되지 않은 데이터를 모두 활용하여 알고리즘을 훈련시키며 라벨링된 데이터만 사용하는 것보다 더 나은 결과를 제공할 수도 있습니다.
반지도 학습이 프로젝트에 적합한지 판단하려면 다음과 같은 질문을 던져 보아야 합니다.
이같은 질문들을 통해 반지도 학습의 적합성을 파악할 수 있습니다. 반지도 학습을 채택하기로 결정했다면, 다음 단계는 두 개의 훈련 데이터 세트를 준비하는 것입니다. 첫 번째 데이터 세트는 일반적으로 프로젝트의 기초 훈련을 위한 소규모 라벨링 데이터 세트입니다. 두 번째 훈련 데이터 세트는 더 크며(종종 훨씬 더 큼) 라벨링되어 있지 않습니다. 시스템은 라벨링되지 않은 데이터 세트를 처리할 때, 라벨링된 세트에서 학습한 내용을 활용하여 의사 라벨(pseudo-labels)을 생성합니다. 알고리즘을 정제하고 성능을 최적화하기 위해 같은 과정이 반복됩니다.
반지도 학습의 가장 일반적인 유형은 다음과 같습니다.
기상 예측 모델을 예로 들면, 한 모델은 풍속, 대기압, 습도 등 기록된 메트릭에 라벨이 부여된 데이터 세트로 훈련을 시작하고, 다른 모델은 지리적 위치, 날짜/시간, 기록된 평균 강수량 등 보다 일반화된 데이터로 훈련을 시작합니다. 두 모델 모두 의사 라벨을 생성하고, 메트릭 모델의 확률 점수가 일반 모델보다 높을 경우 해당 의사 라벨이 일반 모델에 적용되고, 그 반대의 경우도 마찬가지로 진행됩니다.
포괄적인 최종 모델이 생성될 때까지 양쪽 모두 확률이 낮은 결과물을 도출하는 영역을 개선하기 위한 훈련을 계속해서 진행합니다.
| 장점 | 단점 |
|---|---|
| 비용 절감. 반지도 학습은 라벨링되지 않은 데이터를 활용함으로써 방대한 수동 데이터 라벨링을 줄여 시간과 비용을 절약합니다. | 라벨링된 데이터 품질에 민감함. 라벨링된 데이터의 정확성과 관련성이 모델 성능에 크게 영향을 미치므로, 품질 높은 라벨링을 보장하기 위한 세심한 노력 및 비용이 필요합니다. |
| 모델 성능 향상. 반지도 학습 모델은 라벨링된 데이터만으로 훈련된 모델보다 더 나은 정확도를 달성할 수 있는 경우가 많습니다. 특히 라벨링된 데이터가 부족한 경우에 그렇습니다. | 복잡하고 다양한 데이터 세트에 부적합. 데이터 세트의 기본 구조가 너무 복잡한 경우 모델이 라벨링된 데이터와 라벨링되지 않은 데이터 간의 의미 있는 관계를 찾기 어려울 수 있습니다. |
| 비정형 데이터에 효과적. 반지도 학습은 텍스트, 영상, 오디오 분류와 같이 라벨링되지 않은 데이터가 풍부한 작업에 특히 적합합니다. | 투명성 제한. 반지도 학습 모델이 예측을 도출하는 방식을 이해하고 그 정확성을 검증하는 것은 지도 학습에 비해 더 어려울 수 있습니다. |
반지도 학습은 지도 학습을 활용하는 프로젝트 실행 구조와 비지도 학습의 장점(예: 고급 이상 탐지, 라벨링되지 않은 데이터의 숨겨진 패턴 및 구조 발견)이 결합된 방식입니다. 모든 상황에 적합하지는 않지만 다양한 프로젝트 요구사항과 목표에 적용 가능한 특유의 유연성을 갖추고 있습니다.
AI 전략 수립에 어려움을 겪는 기업들은 전문성 센터(CoE)를 구축하는 것이 지속적인 성공을 보장해 준다는 사실을 깨닫게 될 것입니다. Oracle의 Ebook을 통해 그 자세한 이유를 살펴보고 CoE 구축을 위한 로드맵을 작성해 보세요.
반지도 학습은 일반적으로 어떤 상황에서 사용되나요?
반지도 학습은 라벨링이 아예 되지 않았거나 부분적으로만 되어 있는 데이터로 프로젝트를 진행해야 하는 경우 가장 효과적입니다. 먼저 데이터의 일부를 수동으로 라벨링하여 첫 번째 훈련 데이터 세트를 생성하고, 다음 단계로 모델이 라벨링되지 않은 데이터 세트를 탐색하도록 합니다.
반지도 학습과 비지도 학습의 차이점은 무엇인가요?
비지도 학습은 모델이 라벨링되지 않은 데이터 세트를 탐색하여 입력과 출력 간의 패턴과 관계를 스스로 발견하도록 합니다. 반지도 학습도 같은 방법을 사용하지만, 먼저 프로젝트의 기초 방향을 구축하기 위해 라벨링된 소규모 데이터 세트로 알고리즘을 훈련시키는 선행 단계를 거칩니다.
반지도 학습의 장단점은 무엇인가요?
반지도 학습의 장점은 다음과 같습니다.
반지도 학습의 단점은 다음과 같습니다.