반지도 학습이란 무엇인가요?

Michael Chen | Content Strategist | 2024년 10월 29일

반지도 학습은 라벨링된 훈련 데이터 세트와 라벨링되지 않은 훈련 데이터 세트를 모두 사용하는 머신러닝 방법입니다. 이름에서 알 수 있듯이, 이 방법은 지도 학습 및 비지도 학습 요소를 모두 활용합니다. 반지도 학습은 2단계로 이뤄집니다. 먼저 프로젝트의 알고리즘은 지도 학습과 마찬가지로 라벨링된 데이터 세트를 사용하여 초기 훈련을 받습니다. 그 이후 알고리즘은 라벨링되지 않은 데이터 세트로 훈련받게 됩니다.

반지도 학습은 프로젝트용 훈련 데이터의 양은 많지만 그 중 대부분 또는 전부가 라벨링되지 않은 경우에 사용하기 적합합니다. 라벨링되지 않은 데이터만 이용 가능한 프로젝트의 경우, 반지도 학습을 사용하는 프로젝트는 수동으로 라벨링된 데이터로 초기 훈련을 수행한 후 라벨링되지 않은 훈련 데이터로 전환하는 방식으로 진행됩니다. 이같은 접근 방식을 사용하는 프로젝트에서는 데이터 수동 라벨링에 특히 주의를 기울여야 합니다. 프로젝트의 나머지 부분이 구축되는 기반이 되기 때문입니다.

반지도 학습 사용 여부는 주로 이용 가능한 데이터 세트에 따라 결정됩니다. 빅데이터 시대에는 라벨링된 데이터보다 라벨링되지 않은 데이터가 훨씬 더 많고, 액세스하기도 용이하고, 출처에 따라서는 획득 비용도 더 저렴합니다.

때로는 라벨링되지 않은 데이터만으로 프로젝트를 진행해야 하는 경우도 있습니다. 그러한 경우 프로젝트 팀은 초기 알고리즘 훈련을 위해 데이터 세트 일부를 라벨링하는 것이 좋을지, 또는 비지도 학습의 탐색적 특성을 활용하는 것이 좋을지 여부를 판단해야 합니다.

반지도 학습이란 무엇인가요?

반지도 학습은 지도 학습비지도 학습 사이에 위치하는 머신러닝 기법입니다. 반지도 학습은 라벨링된 데이터와 라벨링되지 않은 데이터를 모두 활용하여 알고리즘을 훈련시키며 라벨링된 데이터만 사용하는 것보다 더 나은 결과를 제공할 수도 있습니다.

반지도 학습이 프로젝트에 적합한지 판단하려면 다음과 같은 질문을 던져 보아야 합니다.

  • 이 프로젝트에 사용할 수 있는 데이터 세트는 무엇인가요?
  • 가용 데이터 세트 중 라벨링된 것이 있나요? 금융 데이터 세트를 예로 들자면, 거래가 사기성인지 합법적인지 여부를 라벨링을 통해 표시할 수 있습니다.
  • 모든 데이터 세트가 라벨링되지 않은 경우, 팀이 최소한 일부 데이터에 라벨을 부여할 자원을 보유하고 있나요?
  • 지도 학습 또는 비지도 학습이 프로젝트 목표 달성에 더 적합한가요? 컴퓨팅 자원, 예산, 마감일, 원하는 결과 등의 실무적 요소 및 기술적 요소들을 모두 고려해 보아야 합니다.
  • 라벨링된 데이터 세트가 모델에 사기성 거래와 정상 거래의 패턴 및 특성 등을 가르치기에 충분한가요?

이같은 질문들을 통해 반지도 학습의 적합성을 파악할 수 있습니다. 반지도 학습을 채택하기로 결정했다면, 다음 단계는 두 개의 훈련 데이터 세트를 준비하는 것입니다. 첫 번째 데이터 세트는 일반적으로 프로젝트의 기초 훈련을 위한 소규모 라벨링 데이터 세트입니다. 두 번째 훈련 데이터 세트는 더 크며(종종 훨씬 더 큼) 라벨링되어 있지 않습니다. 시스템은 라벨링되지 않은 데이터 세트를 처리할 때, 라벨링된 세트에서 학습한 내용을 활용하여 의사 라벨(pseudo-labels)을 생성합니다. 알고리즘을 정제하고 성능을 최적화하기 위해 같은 과정이 반복됩니다.

반지도 학습의 가장 일반적인 유형은 다음과 같습니다.

  • 자율 학습(Self-training): 자율 학습은 먼저 라벨링된 데이터 세트를 사용하여 알고리즘을 훈련시킨 후, 후속 훈련 과정에서 라벨링되지 않은 데이터 세트에 높은 신뢰도(99% 이상의 확률)의 의사 라벨을 생성하여 모든 레코드에 라벨이 부여하는 방식입니다. 다음으로 시스템은 라벨링된 훈련 데이터와 의사 라벨을 사용해 라벨링되지 않은 데이터 세트를 연결한 확장된 데이터 세트를 통해 원래 라벨링된 데이터 세트에 비해 더 많은 양의 데이터로 훈련할 수 있습니다.
  • 공동 학습(Co-training): 공동 학습은 라벨링된 소규모 데이터 세트의 상호 보완적이고 독립적인 정보들에 서로 다른 두 가지 관점(특징 그룹)으로 접근하는 방식입니다. 각 그룹은 별도의 알고리즘을 학습하고, 라벨링되지 않은 데이터 세트를 예측해 각 결과 모델에 대한 의사 라벨을 분류합니다. 분류기(라벨을 예측하는 알고리즘)가 생성한 각 의사 라벨에는 확률 점수가 부여되며, 확률 점수가 더 높은 의사 라벨이 다른 훈련 데이터 세트에 추가됩니다.

기상 예측 모델을 예로 들면, 한 모델은 풍속, 대기압, 습도 등 기록된 메트릭에 라벨이 부여된 데이터 세트로 훈련을 시작하고, 다른 모델은 지리적 위치, 날짜/시간, 기록된 평균 강수량 등 보다 일반화된 데이터로 훈련을 시작합니다. 두 모델 모두 의사 라벨을 생성하고, 메트릭 모델의 확률 점수가 일반 모델보다 높을 경우 해당 의사 라벨이 일반 모델에 적용되고, 그 반대의 경우도 마찬가지로 진행됩니다.

포괄적인 최종 모델이 생성될 때까지 양쪽 모두 확률이 낮은 결과물을 도출하는 영역을 개선하기 위한 훈련을 계속해서 진행합니다.

반지도 학습의 장단점

장점 단점
비용 절감. 반지도 학습은 라벨링되지 않은 데이터를 활용함으로써 방대한 수동 데이터 라벨링을 줄여 시간과 비용을 절약합니다. 라벨링된 데이터 품질에 민감함. 라벨링된 데이터의 정확성과 관련성이 모델 성능에 크게 영향을 미치므로, 품질 높은 라벨링을 보장하기 위한 세심한 노력 및 비용이 필요합니다.
모델 성능 향상. 반지도 학습 모델은 라벨링된 데이터만으로 훈련된 모델보다 더 나은 정확도를 달성할 수 있는 경우가 많습니다. 특히 라벨링된 데이터가 부족한 경우에 그렇습니다. 복잡하고 다양한 데이터 세트에 부적합. 데이터 세트의 기본 구조가 너무 복잡한 경우 모델이 라벨링된 데이터와 라벨링되지 않은 데이터 간의 의미 있는 관계를 찾기 어려울 수 있습니다.
비정형 데이터에 효과적. 반지도 학습은 텍스트, 영상, 오디오 분류와 같이 라벨링되지 않은 데이터가 풍부한 작업에 특히 적합합니다. 투명성 제한. 반지도 학습 모델이 예측을 도출하는 방식을 이해하고 그 정확성을 검증하는 것은 지도 학습에 비해 더 어려울 수 있습니다.

반지도 학습은 지도 학습을 활용하는 프로젝트 실행 구조와 비지도 학습의 장점(예: 고급 이상 탐지, 라벨링되지 않은 데이터의 숨겨진 패턴 및 구조 발견)이 결합된 방식입니다. 모든 상황에 적합하지는 않지만 다양한 프로젝트 요구사항과 목표에 적용 가능한 특유의 유연성을 갖추고 있습니다.

AI 전략 수립에 어려움을 겪는 기업들은 전문성 센터(CoE)를 구축하는 것이 지속적인 성공을 보장해 준다는 사실을 깨닫게 될 것입니다. Oracle의 Ebook을 통해 그 자세한 이유를 살펴보고 CoE 구축을 위한 로드맵을 작성해 보세요.

반지도 학습 FAQ

반지도 학습은 일반적으로 어떤 상황에서 사용되나요?

반지도 학습은 라벨링이 아예 되지 않았거나 부분적으로만 되어 있는 데이터로 프로젝트를 진행해야 하는 경우 가장 효과적입니다. 먼저 데이터의 일부를 수동으로 라벨링하여 첫 번째 훈련 데이터 세트를 생성하고, 다음 단계로 모델이 라벨링되지 않은 데이터 세트를 탐색하도록 합니다.

반지도 학습과 비지도 학습의 차이점은 무엇인가요?

비지도 학습은 모델이 라벨링되지 않은 데이터 세트를 탐색하여 입력과 출력 간의 패턴과 관계를 스스로 발견하도록 합니다. 반지도 학습도 같은 방법을 사용하지만, 먼저 프로젝트의 기초 방향을 구축하기 위해 라벨링된 소규모 데이터 세트로 알고리즘을 훈련시키는 선행 단계를 거칩니다.

반지도 학습의 장단점은 무엇인가요?

반지도 학습의 장점은 다음과 같습니다.

  • 라벨링된 데이터 세트와 라벨링되지 않은 데이터 세트를 모두 사용합니다.
  • 대량의 텍스트, 비디오, 오디오와 같은 비정형 데이터에 대한 처리 능력이 우수합니다.
  • 접근성이 높고 비용이 저렴한 라벨링되지 않은 데이터 세트를 활용합니다.
  • 모델 성능이 향상됩니다. 특히 가용 데이터가 제한적인 경우 효과가 좋습니다.

반지도 학습의 단점은 다음과 같습니다.

  • 훈련 데이터 세트를 수동으로 라벨링하는 시간과 비용이 소요될 수 있습니다.
  • 양질의 라벨링 데이터 세트를 사용하는 지도 학습에 비해 정확도와 투명성이 낮을 수 있습니다.
  • 엄격한 지침이 적용되거나 안전을 위한 높은 정확도 기준을 충족해야 하는 프로젝트와 같은 일부 유형의 프로젝트에는 적합하지 않습니다.
  • 복잡하고 다양한 데이터 세트에는 적합하지 않습니다.