본문 바로가기

AI

[SSL] Semi-supervised Learning (SSL) 이해

Machine Learing 분류

머신러닝은 크게 지도학습(supervised Learning : SL ), 준지도 학습(semi-supervised Learnig : SSL), 비지도학습 (unsuvpervised-Learning, UL) 로 분류 됩니다. 

  • Supervised Leaning : 정답지(labeling data)를 가지고 학습을 시킴
  • Semi-Supervised Learning : 정답이 없는것과 있는것을 함께 학습 시킴 ( 답이 일부 있는 데이텅, 없는 데이터 활용 )
  • Unsupervised Learning : 정답이 없는 학습, Clustering, Association

색깔은 답이 있는 데이터를 의미한다

 

즉, 준지도 학습(semi-supervised learning)은
unlabled data + labeled data를 함께 학습하는 것 입니다.

 

준지도학습(Semi Supervised Leaning)의 필요성

AI 학습을 위해서는 정답 즉, 라벨링된 데이터(Labeling) 가 반드시 필요합니다. 하지만 라벨링 작업은 시간과 노력이 오래 걸리는것도 문제이지만, 실제 생활에서는 라벨링 작업을위해서 전문가들이 필요하여 일반적인 데이터 구축보다 더 어려운 경우가 많습니다. 

 

예를들어, 의료의 경우 의사와 같은 전문가가 데이터를 라벨링해야 정확한데이터를 만들수 있기 때문에, 단순 사물 인식수준보다 데이터 축적이 더 어려운것이 현실입니다. 

그 외에도 언어라던지 다양한 전문분야의 경우 각 영역의 전문가가 있어야 잘 라벨링된 데이터를 통해 AI를 학습시켜 좋은 성능의 AI를 만들어 낼 수 있습니다.

 

준지도 학습(Semi-Supervised Learning)은 레이블된 데이터가 적을 때 레이블이 없는 데이터를 사용해 성능을 향상시키는 는 목적으로 많이 활용 되고 있습니다.

 

 

 

https://academic.oup.com/bioinformatics/article/24/6/783/193709

(a)그림 처럼 동그리마 세모(labled data)의 정답이 있어서 분류모델을 만든다면 (b)처럼 분류되는 Classification Plane이 (선)이 만들어 지는데, 실제 현실세계에 (b)처럼 초록색동그라미 (unlabeled data) 가 함께 있다면 준지도학습(semi-supvervised learning)을 통해서 (d) 처럼 다른형태의 Classification plane 이 만들어 집니다.
사실, 정확한 분류는 (d)가 됩니다.