"텍스트마이닝"의 두 판 사이의 차이
1번째 줄: | 1번째 줄: | ||
− | ''' | + | '''텍스트 마이닝'''(Text Mining)은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로 부터 의미 있는 정보를 발견할 수 있도록 하는 기술이다. |
==개요== | ==개요== | ||
+ | 텍스트 마이닝은 크게 자료 처리과정(Data Processing)과 자료 분석(Data Analysis)으로 나눌 수 있다. | ||
==기술== | ==기술== | ||
− | + | 텍스트마이닝의 주요 기술은 다음과 같다. | |
− | === | + | ===자연어 처리=== |
자연어처리 기술(NLP,Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이 쪽에 속한다.언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.<ref name="자연 언어 처리">〈[https://namu.wiki/w/%EC%9E%90%EC%97%B0%20%EC%96%B8%EC%96%B4%20%EC%B2%98%EB%A6%AC 자연 언어 처리]〉, 《나무위키》</ref> | 자연어처리 기술(NLP,Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이 쪽에 속한다.언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.<ref name="자연 언어 처리">〈[https://namu.wiki/w/%EC%9E%90%EC%97%B0%20%EC%96%B8%EC%96%B4%20%EC%B2%98%EB%A6%AC 자연 언어 처리]〉, 《나무위키》</ref> | ||
− | === | + | ===언어모델링=== |
− | + | 언어 모델(Language Model)이란, 언어라는 현상을 표현, 모델링하는 모델을 말한다. 언어라는 현상을 표현한다는 것은 다르게 말하면 기계가 자연어를 생성(NLG,Natural Language Generation)하는 일들을 한다는 것이다. 언어 모델은 자연어 생성 작업에 속하는 음성 인식, 기계 번역, 광학 문자 인식(OCR,Optical Character Recognition), 검색어 자동 완성, 문서 요약과 같은 일들을 수행한다.조금 더 구체적으로 표현하자면, 언어 모델은 문장(단어 시퀀스)의 확률을 예측하는 모델이다. 언어 모델이 하는 일은 문장의 확률을 예측하는 일을 한다. 이전 단어들이 주어졌을 때 다음 단어가 나올 확률을 예측한다. | |
− | + | ===머신 러닝 알고리즘=== | |
+ | [[머신러닝]] 알고리즘(Machine Learning)이란, 데이터를 이용해서 컴퓨터를 학습시키는 방법론이다. 머신 러닝 알고리즘은 크게 세가지 분류로 나눌 수 있다. | ||
− | * | + | * 지도 학습(Supervised Learning) : [[지도 학습]]은 데이터에 대한 [[레이블]](Label/정답)이 주어진 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data),레이블(label)) 형태로 학습을 진행하는 방법이다. |
− | * | + | * 비지도 학습(Unsupervised Learning) : [[비지도 학습]]은 데이터에 대한 레이블(Label/정답)이 주어지지 않는 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data)) 형태로 학습을 진행하는 방법이다. |
− | * | + | * 강화 학습(Reinforcement Learning) : [[강화 학습]]은 지도 학습과 비지도 학습과는 다른 종류의 학습 알고리즘이다. 지도 학습과 비지도 학습과는 달리 주어진 환경에 대해 어떤 행동을 취하고 이로부터 어떤 보상을 얻으면서 학습을 진행하는 방식이다.<ref name="머신 러닝 알고리즘 분류">〈[http://solarisailab.com/archives/1785 머신 러닝 알고리즘 분류]〉, 《Solaris Lab》</ref> |
− | + | ===데이터 마이닝=== | |
− | |||
− | == | ||
데이터 마이닝(Data Mining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다. 또한, 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 [[탐색적자료분석]], 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 온라인 분석 처리(OLAP,On-Line Analytic Processing), 인공지능 진영에서 발전한 자기조직화 지도(SOM,Self-Organizing Map), 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다. 응용 분야로는 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업에서 광범위하게 사용되고 있다. 데이터 마이닝 기술의 적용 분야는 다음과 같다. | 데이터 마이닝(Data Mining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다. 또한, 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 [[탐색적자료분석]], 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 온라인 분석 처리(OLAP,On-Line Analytic Processing), 인공지능 진영에서 발전한 자기조직화 지도(SOM,Self-Organizing Map), 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다. 응용 분야로는 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업에서 광범위하게 사용되고 있다. 데이터 마이닝 기술의 적용 분야는 다음과 같다. | ||
30번째 줄: | 30번째 줄: | ||
* 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다. | * 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다. | ||
* 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다. | * 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다. | ||
+ | |||
+ | ==활용== | ||
{{각주}} | {{각주}} |
2019년 9월 16일 (월) 16:13 판
텍스트 마이닝(Text Mining)은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로 부터 의미 있는 정보를 발견할 수 있도록 하는 기술이다.
개요
텍스트 마이닝은 크게 자료 처리과정(Data Processing)과 자료 분석(Data Analysis)으로 나눌 수 있다.
기술
텍스트마이닝의 주요 기술은 다음과 같다.
자연어 처리
자연어처리 기술(NLP,Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이 쪽에 속한다.언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.[1]
언어모델링
언어 모델(Language Model)이란, 언어라는 현상을 표현, 모델링하는 모델을 말한다. 언어라는 현상을 표현한다는 것은 다르게 말하면 기계가 자연어를 생성(NLG,Natural Language Generation)하는 일들을 한다는 것이다. 언어 모델은 자연어 생성 작업에 속하는 음성 인식, 기계 번역, 광학 문자 인식(OCR,Optical Character Recognition), 검색어 자동 완성, 문서 요약과 같은 일들을 수행한다.조금 더 구체적으로 표현하자면, 언어 모델은 문장(단어 시퀀스)의 확률을 예측하는 모델이다. 언어 모델이 하는 일은 문장의 확률을 예측하는 일을 한다. 이전 단어들이 주어졌을 때 다음 단어가 나올 확률을 예측한다.
머신 러닝 알고리즘
머신러닝 알고리즘(Machine Learning)이란, 데이터를 이용해서 컴퓨터를 학습시키는 방법론이다. 머신 러닝 알고리즘은 크게 세가지 분류로 나눌 수 있다.
- 지도 학습(Supervised Learning) : 지도 학습은 데이터에 대한 레이블(Label/정답)이 주어진 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data),레이블(label)) 형태로 학습을 진행하는 방법이다.
- 비지도 학습(Unsupervised Learning) : 비지도 학습은 데이터에 대한 레이블(Label/정답)이 주어지지 않는 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data)) 형태로 학습을 진행하는 방법이다.
- 강화 학습(Reinforcement Learning) : 강화 학습은 지도 학습과 비지도 학습과는 다른 종류의 학습 알고리즘이다. 지도 학습과 비지도 학습과는 달리 주어진 환경에 대해 어떤 행동을 취하고 이로부터 어떤 보상을 얻으면서 학습을 진행하는 방식이다.[2]
데이터 마이닝
데이터 마이닝(Data Mining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다. 또한, 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 온라인 분석 처리(OLAP,On-Line Analytic Processing), 인공지능 진영에서 발전한 자기조직화 지도(SOM,Self-Organizing Map), 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다. 응용 분야로는 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업에서 광범위하게 사용되고 있다. 데이터 마이닝 기술의 적용 분야는 다음과 같다.
- 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
- 군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾는다.
- 연관성(Association) : 동시에 발생한 사건간의 관계를 정의한다.
- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다.
- 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다.
활용
각주
- ↑ 〈자연 언어 처리〉, 《나무위키》
- ↑ 〈머신 러닝 알고리즘 분류〉, 《Solaris Lab》
참고자료
- 인투더데이터, 〈텍스트마이닝-Text Mining〉, 《인투더데이터》