준지도학습
준지도학습(semi-supervised learning)은 머신러닝의 한 접근 방식으로, 일부는 레이블이 있고 나머지는 레이블이 없는 데이터를 함께 사용하여 모델을 학습시키는 방법이다. 일부 데이터에만 레이블(정답)이 있는 경우에 사용된다. 즉, 전체 데이터셋 중 일부는 레이블이 붙어 있고, 나머지 데이터는 레이블이 없는 상태에서 학습을 진행하는 방법이다. 이 방법은 특히 대량의 데이터를 다루면서도 레이블링이 어려운 상황에서 매우 유용한 방법이다. 이 방법을 통해 모델은 더 많은 데이터를 활용하여 일반화 능력을 향상시킬 수 있다. 준지도학습은 지도학습과 비지도학습의 중간 형태로 볼 수 있다.
[아사달] 스마트 호스팅 |
목차
작동 방식
준지도학습의 작동 방식은 레이블이 없는 데이터와 서로 다른 클래스 데이터 포인트 간의 연관성에 대한 특정 가정을 바탕으로 한다. 이러한 방식은 모델이 학습할 때 레이블이 없는 예제가 학습 과제와 관련성이 있어야 한다는 점을 전제로 한다.
보다 공식적으로 말하자면, 준지도학습은 입력 데이터 분포 가 사후 분포 , 즉 데이터 포인트 가 특정 클래스 에 속할 확률에 대한 정보를 제공해야 한다. 예를 들어, 고양이와 개를 구별하는 분류기를 학습시킬 때, 레이블이 없는 데이터는 고양이와 개 이미지를 포함해야 한다. 말이나 오토바이 이미지가 포함되면 학습에 방해가 될 뿐이다.
2018년 연구에서는 "레이블이 없는 데이터의 양을 늘리면 준지도학습의 성능이 향상되는 경향이 있다"고 결론지었다. 그러나 "학습에 관련 없는 클래스 데이터를 추가하면 성능이 저하될 수 있다"는 점도 강조했다. 이는 데이터 분포 가 클래스 분포 와 의미 있는 관계를 맺어야 한다는 기본 조건에 기인한다. 이 관계는 준지도학습에서 중요한 몇 가지 가정을 유발하며, 대부분의 알고리즘이 이러한 가정을 활용한다. 주요 가정은 다음과 같다.
클러스터 가정
클러스터 가정은 동일한 클러스터에 속하는 데이터 포인트는 동일한 클래스에 속한다고 본다. 예를 들어, 고양이 사진과 개 사진이 각각 밀집된 클러스터를 이루면, 같은 클러스터 내의 데이터는 같은 클래스로 분류될 가능성이 크다. 이는 데이터의 유사성을 정의하는 방식에 따라 달라진다. 예를 들어, 유사성을 정의하는 방식에 따라 평활도 가정, 저밀도 가정, 매니폴드 가정과 연결될 수 있다.[1]
평활도 가정
평활도 가정은 서로 가까운 데이터 포인트는 동일한 레이블을 가져야 한다는 원칙이다. 지도학습에서도 흔히 적용되며, 데이터 간 유사성에 따라 새로운 데이터를 분류하는 데 사용된다. 예를 들어, 레이블이 지정된 데이터 포인트 , 레이블이 없는 데이터 포인트 와 가 있다고 하자. 는 과 가깝고, 은 와 가깝지만 과는 멀다. 이 경우, 는 과 동일한 레이블을 갖게 되고, 도 의 영향을 받아 동일한 레이블로 분류된다.[1]
저밀도 가정
저밀도 가정은 결정 경계가 데이터가 밀집하지 않은 영역에 있어야 한다는 가정이다. 이는 데이터의 고밀도 영역이 같은 클래스를 나타내고, 클래스 간의 경계가 고밀도 영역을 통과하지 않아야 한다는 점에서 클러스터 가정과 연결된다.[1]
매니폴드 가정
매니폴드 가정은 고차원 입력 공간이 여러 저차원 매니폴드로 구성되며, 동일한 매니폴드의 데이터 포인트는 동일한 레이블을 공유한다고 본다. 이를 차원 축소로 이해할 수 있다. 예를 들어, 복잡한 3차원 데이터를 2차원 공간으로 축소하여 데이터의 구조적 특징을 보존하면서 연산 효율성을 높인다. 이 과정은 관련 없는 정보를 제거하고 유의미한 표현을 학습하도록 돕는다.[1]
학습 방식
변환적 학습
변환적 학습(Transductive Learning)은 학습 과정에서 모델이 특정한 테스트 데이터에 초점을 맞춘다. 이는 학습 데이터와 테스트 데이터가 함께 주어질 때, 테스트 데이터에 대한 정확한 예측을 수행하는 데 최적화된다. 변환적 학습의 대표적인 예는 그래프 기반 준지도학습이다. 이 방법은 데이터 포인트를 노드로, 노드 간의 관계를 간선으로 표현하는 그래프를 구축한 뒤, 그래프에서 레이블 전파(Label Propagation) 기법을 사용하여 레이블이 없는 데이터에 대한 예측을 수행한다. 변환적 학습의 주요 특징은 다음과 같다.
- 적용 범위 제한 : 변환적 학습은 학습된 모델이 주어진 테스트 데이터에만 적용된다. 즉, 새로운 테스트 데이터가 추가될 경우, 모델을 다시 학습해야 한다.
- 전체 데이터 활용 : 학습 과정에서 학습 데이터와 테스트 데이터를 모두 사용하여 모델을 훈련시킨다. 이로 인해 테스트 데이터의 특성을 더 잘 반영하는 모델을 만들 수 있다.
- 장단점
- 장점 : 특정 테스트 데이터에 맞춘 최적의 성능을 낼 수 있다.
- 단점 : 일반화가 어렵고, 새로운 데이터에 대한 확장성이 부족하다.
귀납적 학습
귀납적 학습(Inductive Learning)은 학습 데이터로부터 일반적인 규칙이나 패턴을 학습하여, 학습 과정에서 보지 못한 새로운 데이터에도 적용할 수 있는 모델을 구축하는 방식이다. 대부분의 머신러닝 알고리즘, 특히 지도학습 알고리즘이 귀납적 학습의 형태를 따른다. 준지도학습에서는 신경망 기반의 자기지도학습 방식이 귀납적 학습에 속할 수 있다. 귀납적 학습의 주요 특징은 다음과 같다.
- 일반화 능력 : 귀납적 학습은 새로운 테스트 데이터에 대한 예측을 목표로 한다. 학습 데이터와 테스트 데이터가 반드시 동시에 제공될 필요는 없으며, 학습된 모델은 새로운 상황에서도 활용 가능하다.
- 학습 과정 분리 : 학습 데이터만으로 모델을 학습시키고, 테스트 데이터는 학습이 완료된 후 모델의 예측 성능을 평가하기 위해 사용된다.
- 장단점
- 장점 : 새로운 데이터에 대해 적용 가능하며, 일반화된 모델을 구축할 수 있다.
- 단점 : 특정 테스트 데이터에 대해 최적화된 성능을 내기 어려울 수 있다.
장점
- 레이블링 비용 절감 : 레이블이 있는 데이터는 수집과 레이블링 과정에서 높은 비용이 발생할 수 있다. 준지도학습은 레이블이 없는 대량의 데이터를 활용할 수 있어 비용 효율적이다.
- 모델 성능 향상 : 학습 데이터가 적은 상황에서도, 레이블이 없는 데이터를 활용하여 더 나은 성능을 낼 수 있다. 특히, 데이터가 제한적인 분야(의료, 천문학 등)에서 효과적이다.
- 데이터 활용 극대화 : 레이블이 없는 데이터를 포함한 대규모 데이터셋을 사용해 학습하기 때문에, 데이터를 더 폭넓게 활용할 수 있다.
- 다양한 활용 가능성 : 텍스트 분류, 이미지 분류, 추천 시스템 등 여러 분야에서 성공적으로 적용될 수 있다. 특히, 대규모의 비정형 데이터가 많을수록 유용하다.
- 레이블 오류 완화 : 레이블이 잘못 지정된 데이터가 포함되어 있더라도, 전체 데이터 구조를 기반으로 학습하므로 모델이 이러한 오류를 완화할 가능성이 있다.
단점
- 가정에 대한 의존성 : 준지도학습은 클러스터 가정, 평활도 가정, 저밀도 가정 등 데이터 분포에 대한 특정 가정에 기반한다. 데이터가 이러한 가정을 따르지 않으면 모델 성능이 저하될 수 있다.
- 레이블이 없는 데이터의 품질 의존 : 레이블이 없는 데이터가 학습 문제와 관련성이 부족하거나, 데이터셋에 잡음(noise)이 많다면 모델이 부정확하게 학습될 위험이 있다.
- 컴퓨팅 비용 증가 : 레이블이 없는 대규모 데이터와 레이블이 있는 데이터를 함께 처리하므로 학습 과정에서 계산 자원이 더 많이 필요할 수 있다.
- 모델 평가 어려움 : 레이블이 없는 데이터를 활용하는 만큼, 학습 과정 중 모델의 성능을 평가하고 최적화하는 데 한계가 있을 수 있다.
- 일부 응용 분야에서 제한적 : 준지도학습은 데이터의 분포가 가정을 충족하는 경우에만 효과적이다. 가정이 충족되지 않는 비구조적 데이터나 특정 상황에서는 성능이 떨어질 수 있다.
비교
지도학습과 비교
지도학습(Supervised Learning)은 주어진 입력 데이터와 이에 대한 명확한 레이블을 기반으로 학습한다. 예를 들어, 고양이와 개 사진이 각각 "고양이" 또는 "개"라는 레이블과 함께 제공된다면, 모델은 이러한 매핑을 학습하여 새로운 입력에 대해 올바른 레이블을 예측한다. 지도학습의 주요 장점은 높은 정확성과 신뢰성을 제공할 수 있다는 점이다. 그러나 대량의 레이블 데이터가 필요하며, 이 데이터를 준비하는 데는 시간과 비용이 많이 든다.
준지도학습은 이러한 지도학습의 한계를 극복하기 위해 설계되었다. 준지도학습은 소량의 레이블 데이터와 대량의 비레이블 데이터를 결합하여 학습한다. 예를 들어, 수백 개의 레이블이 달린 이미지와 수천 개의 레이블이 없는 이미지를 동시에 사용하여 모델을 훈련한다. 이는 레이블 데이터의 비용 문제를 완화하며, 비레이블 데이터에서의 패턴을 활용하여 일반화 성능을 높일 수 있다.
지도학습은 데이터 품질과 양이 성능에 매우 큰 영향을 미친다. 반면, 준지도학습은 적은 양의 레이블 데이터로도 비교적 높은 성능을 낼 수 있다. 또한 준지도학습은 지도학습보다 데이터 라벨링 비용을 줄이는 데 효과적이다. 그리고 지도학습은 명확하고 구조화된 문제에서 더 적합하며, 준지도학습은 데이터가 방대하지만 레이블이 적은 상황에서 유리하다.
비지도학습과 비교
비지도학습(Unsupervised Learning)은 데이터에 레이블이 전혀 없는 상황에서 작동한다. 클러스터링(Clustering), 차원 축소(Dimensionality Reduction)와 같은 기술을 활용하여 데이터 내의 숨겨진 구조를 발견한다. 예를 들어, 고객 데이터를 클러스터링하여 유사한 소비자 그룹을 분류하거나, 데이터를 시각화하기 위해 차원을 축소할 수 있다.
준지도학습은 비지도학습과 달리 일부 레이블 데이터를 포함한다. 이는 모델이 데이터의 구조를 학습할 뿐만 아니라 주어진 레이블 데이터를 통해 특정한 예측 작업을 수행할 수 있도록 돕는다.
비지도학습은 데이터 내의 패턴과 구조를 발견하는 데 초점을 두며, 준지도학습은 이를 예측 모델에 통합한다. 준지도학습은 특정한 레이블 데이터가 제공되기 때문에 목표 지향적이며, 비지도학습은 더 탐색적인 접근 방식이다. 또한 비지도학습은 초기 탐색 단계에서 유용하며, 준지도학습은 탐색과 구체적인 모델 훈련을 결합한 방식이다.
자기지도학습과 비교
자기지도학습(Self-Supervised Learning)은 레이블이 없는 데이터를 활용하여 자체적으로 학습 목표를 생성하는 접근 방식이다. 모델은 데이터를 처리하는 과정에서 일부 데이터를 예측하도록 훈련되며, 이 과정에서 명시적인 레이블이 필요하지 않다. 예를 들어, 이미지의 일부를 가리고 이를 예측하게 하거나, 텍스트에서 단어의 순서를 맞추는 과제를 학습할 수 있다.
준지도학습은 여전히 일부 레이블 데이터를 활용하지만, 자기지도학습은 레이블 데이터를 전혀 사용하지 않는다. 대신, 자기지도학습에서 학습된 모델은 준지도학습이나 지도학습의 사전 학습 모델로 활용될 수 있다.
자기지도학습은 완전히 비레이블 데이터를 기반으로 자체 학습 과제를 생성하며, 준지도학습은 일부 레이블 데이터를 포함하여 이를 보완한다. 준지도학습은 실질적인 예측 문제 해결에 초점을 두는 반면, 자기지도학습은 더 일반적인 표현 학습에 중점을 둔다. 자기지도학습은 준지도학습의 초기 단계로 사용될 수 있으며, 이를 통해 비레이블 데이터에서 유용한 특성을 추출한 후, 준지도학습을 통해 추가 학습을 진행할 수 있다.
각주
- ↑ 1.0 1.1 1.2 1.3 〈준지도 학습이란 무엇인가요?〉, 《IBM》
참고자료
- 〈준지도 학습이란 무엇인가요?〉, 《IBM》
같이 보기