의견.png

비지도학습

위키원
Sg03098 (토론 | 기여)님의 2019년 9월 17일 (화) 11:19 판
이동: 둘러보기, 검색

비지도학습은 기계 학습의 일종으로, 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다. 이 방법은 지도 학습(Supervised Learning) 혹은 강화 학습(Reinforcement Learning)과는 달리 입력값에 대한 목표치가 주어지지 않는다.

개요

학습 훈련 데이터(training data)로 출력 없이 입력만 제공되는 상황을 문제(입력)의 답(출력)을 가르쳐 주지 않는 것에 비유해 비지도형 기계 학습, 비지도학습 이라고 한다. 비지도학습은 사람의 해석을 통해 유용한 지식을 추출하는 데 활용되거나 지도학습에서의 원래 입력보다 데이터 특징을 더 잘 표현하는 새로운 입력을 만드는 특징 추출기(feature extractor)로 활용된다. 비지도학습은 통계의 밀도 추정(Density Estimation)과 깊은 연관이 있으며, 데이터의 주요 특징을 요약하고 설명할 수 있다. 비지도학습의 예로는 클러스터링(Clustering), 독립 성분 분석(Independent Component Analysis)이 있다. 클러스터링은 유사성 등의 개념에 기초하여 데이터를 몇몇의 그룹으로 분류하는 수법을 총칭하는 것으로, 문헌 검색, 패턴 인식, 경영 과학 등에 폭넓게 응용되고 있다. 클러스터 분석은 주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 데이터 집단의 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법이다. 클러스터는 비슷한 특성을 가진 데이터들의 집단을 의미한다. 반대로 데이터의 특성이 다르면 다른 클러스터에 속해야 하는 것이다. 클러스터 분석을 통해 수백만의 데이터를 직접 확인하지 않고 각각 클러스터의 대표값만 확인해 전체 데이터의 특성을 파악할 수 있다. 독립 성분 분석은 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하는 계산 방법이다. 각 성분은 비 가우스 성 신호로서 서로 통계적 독립을 이루는 성분으로 구성되어 블라인드 신호를 분리할 수 있다.

특징

비지도학습은 기계학습 중 컴퓨터가 입력값만 있는 훈련 데이터를 이용하여 입력들의 규칙성을 찾는 학습 방법으로 입력의 규칙성에 따라 군집 분석(Cluster analysis), 의존 구조(dependency structure) 학습, 벡터 양자화(vector quantization), 데이터 차원 축소(data dimensionality reduction) 등으로 구분한다. 군집 분석과 의존 구조 학습은 주로 데이터에 내재하는 유용한 정보나 지식을 추출하는 데 활용된다. 예를 들어, 유전자 데이터에서 학습된 유전자 사이의 의존 구조는 생의학 연구자들에게 새로운 지식을 제공할 수 있다. 벡터 양자화와 데이터 차원 축소는 데이터의 잡음과 불필요한 입력을 제거하며, 지식 추출, 데이터 압축 및 특징 추출(feature extraction) 등에 적용된다. 특징 추출은 원래 입력보다 데이터를 더 잘 표현하는 새로운 입력을 만드는 것을 의미하며, 추출된 특징은 지도 학습의 성능을 향상시키는 데 이용된다.

군집 분석
군집 분석(Cluster analysis)은 대표적인 비지도학습의 방법으로 데이터의 분할 및 요약에 널리 이용되며 데이터의 유용한 지식을 추출하는데 활용될 수 있다. 군집분석은 1932년 헤럴드 드라이버(Harold Driver)와 앨프리드 크로버(Alfred Kroeber)가 처음 시도한 것으로 알려져 있다. 군집 분석은 서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석으로, 동일한 군집에 속하는 객체 간의 유사도가 그렇지 않은 객체 간의 유사도보다 평균적으로 높도록 군집을 구성한다. 군집분석은 집단 또는 범주에 대한 사전 정보가 없는 데이터의 경우, 주어진 관측 값을 사용하여 전체를 몇 개의 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하기 위한 기법이다. 최적의 군집 개수를 정하거나 군집 분석 결과의 정확도를 평가하는 객관적인 기준은 없으며, 배경 지식에 근거한 사람의 주관적인 평가가 필요하다. 대표적인 군집 분석 방법으로 ‘계층적 군집화’와 ‘k-평균 군집화’를 들 수 있다. 계층적 군집화는 병합적이고 분할적인 방법이다. 계층적 군집화의 병합방법은 N개의 군집들을 가지고 시작해서 최종적으로 하나의 군집이 남을 때까지 순차적으로 유사한 군집들을 병합하는 상비지도학습은 기계 학습의 일종으로, 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다. 이 방법은 지도 학습(Supervised Learning) 혹은 강화 학습(Reinforcement Learning)과는 달리 입력값에 대한 목표치가 주어지지 않는다.

개요

학습 훈련 데이터(training data)로 출력 없이 입력만 제공되는 상황을 문제(입력)의 답(출력)을 가르쳐 주지 않는 것에 비유해 비지도형 기계 학습, 비지도학습 이라고 한다. 비지도학습은 사람의 해석을 통해 유용한 지식을 추출하는 데 활용되거나 지도학습에서의 원래 입력보다 데이터 특징을 더 잘 표현하는 새로운 입력을 만드는 특징 추출기(feature extractor)로 활용된다. 비지도학습은 통계의 밀도 추정(Density Estimation)과 깊은 연관이 있으며, 데이터의 주요 특징을 요약하고 설명할 수 있다. 비지도학습의 예로는 클러스터링(Clustering), 독립 성분 분석(Independent Component Analysis)이 있다. 클러스터링은 유사성 등의 개념에 기초하여 데이터를 몇몇의 그룹으로 분류하는 수법을 총칭하는 것으로, 문헌 검색, 패턴 인식, 경영 과학 등에 폭넓게 응용되고 있다. 클러스터 분석은 주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 데이터 집단의 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법이다. 클러스터는 비슷한 특성을 가진 데이터들의 집단을 의미한다. 반대로 데이터의 특성이 다르면 다른 클러스터에 속해야 하는 것이다. 클러스터 분석을 통해 수백만의 데이터를 직접 확인하지 않고 각각 클러스터의 대표값만 확인해 전체 데이터의 특성을 파악할 수 있다. 독립 성분 분석은 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하는 계산 방법이다. 각 성분은 비 가우스 성 신호로서 서로 통계적 독립을 이루는 성분으로 구성되어 블라인드 신호를 분리할 수 있다.

특징

비지도학습은 기계학습 중 컴퓨터가 입력값만 있는 훈련 데이터를 이용하여 입력들의 규칙성을 찾는 학습 방법으로 입력의 규칙성에 따라 군집 분석(Cluster analysis), 의존 구조(dependency structure) 학습, 벡터 양자화(vector quantization), 데이터 차원 축소(data dimensionality reduction) 등으로 구분한다. 군집 분석과 의존 구조 학습은 주로 데이터에 내재하는 유용한 정보나 지식을 추출하는 데 활용된다. 예를 들어, 유전자 데이터에서 학습된 유전자 사이의 의존 구조는 생의학 연구자들에게 새로운 지식을 제공할 수 있다. 벡터 양자화와 데이터 차원 축소는 데이터의 잡음과 불필요한 입력을 제거하며, 지식 추출, 데이터 압축 및 특징 추출(feature extraction) 등에 적용된다. 특징 추출은 원래 입력보다 데이터를 더 잘 표현하는 새로운 입력을 만드는 것을 의미하며, 추출된 특징은 지도 학습의 성능을 향상시키는 데 이용된다.

군집 분석
군집 분석(Cluster analysis)은 대표적인 비지도학습의 방법으로 데이터의 분할 및 요약에 널리 이용되며 데이터의 유용한 지식을 추출하는데 활용될 수 있다. 군집분석은 1932년 헤럴드 드라이버(Harold Driver)와 앨프리드 크로버(Alfred Kroeber)가 처음 시도한 것으로 알려져 있다. 군집 분석은 서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석으로, 동일한 군집에 속하는 객체 간의 유사도가 그렇지 않은 객체 간의 유사도보다 평균적으로 높도록 군집을 구성한다. 군집분석은 집단 또는 범주에 대한 사전 정보가 없는 데이터의 경우, 주어진 관측 값을 사용하여 전체를 몇 개의 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하기 위한 기법이다. 최적의 군집 개수를 정하거나 군집 분석 결과의 정확도를 평가하는 객관적인 기준은 없으며, 배경 지식에 근거한 사람의 주관적인 평가가 필요하다. 대표적인 군집 분석 방법으로 ‘계층적 군집화’와 ‘k-평균 군집화’를 들 수 있다. 계층적 군집화는 병합적이고 분할적인 방법이다. 계층적 군집화의 병합방법은 n개의 군집들을 가지고 시작해서 최종적으로 하나의 군집이 남을 때까지 순차적으로 유사한 군집들을 병합하는 상향식방법이다. 계층적 군집화의 분할방법은 모든 레코드들을 포함하고 있는 하나의 군집에서 출발하여 n개의 군집으로 분할하는 하향식방법이다. k-평균 군집화는 사용자가 군집의 개수 ‘k’를 미리 결정하는 방법으로, 초기화 상태에 따라 다양한 결과를 얻게 된다. 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. k-평균 군집화는 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.
의존 구조 학습
의존 구조(dependency structure) 학습은
벡터 양자화(vector quantization)
벡터 양자화(vector quantization)
데이터 차원 축소(data dimensionality reduction)
데이터 차원 축소(data dimensionality reduction)

문제점

각주

참고자료

  • 한국정보통신기술협회 공식 홈페이지 - http://www.tta.or.kr/
  • 비지도학습〉, 《위키백과》, 2019-04-11
  • 비지도형 기계학습〉, 《네이버 지식백과》, 2018-12-13
  • 클러스터링〉, 《네이버 지식백과》
  • 클러스터링〉, 《위키백과》, 2018-04-26
  • 클러스터 분석〉, 《위키백과》, 2018-09-14
  • 군집분석〉, 《네이버 지식백과》, 2018-08-24
  • 〈[file:///C:/Users/c348/Downloads/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A7%88%EC%9D%B4%EB%8B%9D%20%EA%B0%95%EC%9D%98%EC%9E%90%EB%A3%8C_7%EA%B0%95%20%EA%B3%84%EC%B8%B5%EC%A0%81%20%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9D.pdf 계층적 군집분석]〉, 《PPT-한성대학교 데이터 마이닝》
  • k-평균 알고리즘〉, 《위키백과》, 2019-07-15


같이 보기


  의견.png 이 비지도학습 문서는 알고리즘에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.