"텍스트마이닝"의 두 판 사이의 차이

2019년 9월 16일 (월) 15:33 판

텍스트마이닝(Text Mining)은 작성자가 개념을 표현하기 위해 사용한 정확한 단어와 용어를 모르더라도 주요 개념과 테마를 캡처하고 숨겨진 관계와 경향을 발견하기 위해 텍스트 자료 콜렉션을 분석하는 프로세스이다.

개요

기술

텍스트마이닝을 위한 기술은 다음과 같다.

자연어처리 기술

자연어처리 기술(NLP,Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이 쪽에 속한다.언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.^[1]

정보검색 기술

정보검색 기술(IR,Information Retrieval)이란, 집합적인 정보로부터 원하는 내용과 관련이 있는 부분을 얻어 내는 행위를 말한다. 이를 위해 메타데이터나 색인이 사용될 수 있다. 자동화된 정보 검색 시스템은 소위 '정보 과부화'라 불리는 상태를 완화시키기 위해 사용된다. 많은 대학 및 공공 도서관들이 보유 서적 및 저널, 각종 문서들에 대한 접근성을 제공하기 위해 정보 검색 시스템을 구축한다. 웹 검색 엔진도 정보검색 기술 중에 하나다. 정보검색시스템은 다음과 같이 다섯 가지 요소로 구성되어 있다.

데이터집합 : 검색의 대상이 되는 데이터로서 크게 데이터베이스형과 문서형으로 구분한다. 데이터베이스형은 날씨, 주가, 기차시간표 등과 같이 일정한 스키마를 갖고 데이터베이스에 저장되어 있는 데이터인 반면에, 문서형은 제목과 본문, 생성날짜 등으로 구성된 데이터를 말한다. 문서형은 다시 정형적 문서형과 비정형적 문서형으로 나뉘는데, 정형적 문서형은 지식검색데이터나 블로그데이터와 같이 비교적 나름대로의 서식을 갖추고 있는 데이터이고, 비정형적 문서형은 웹문서와 같이 상대적으로 자유로운 형식의 데이터를 의미한다.

색인 : 문서형데이터집합에 대하여, 각 단어별 문서리스트를 생성한 것을 의미하며, 흔히 역문서리스트(Inverted List)라는 용어로도 표현한다. 색인방식에 따라 데이터집합을 한꺼번에 색인하는 일괄색인(Batch Indexing)과 점증색인(Incremental Indexing)으로 구분되는데, 뉴스검색은 대표적으로 점증색인을 적용하는 분야이다.

랭킹 : 입력된 질의(Query)에 대하여 가장 적합한 순으로 문서형데이터들을 나열하는 작업을 의미하며, 이를 위한 다양한 검색알고리즘이 존재한다. 여기서 적합성은 질의와 문서와의 유사성, 문서의 최신성, 문서 고유의 품질 그리고 사용자 검색로그를 포함한 기타 여러 정보가 적절히 혼합되어 판단할 수있다.

표현 : 검색의 결과는 구글과 같이 단순리스트형식으로 사용자에게 제시될 수도 있고, 유사한 결과들이 그룹화되어 제시될 수도 있으며, 데이터의 종류등으로 구분되어 제시될 수도 있다.

사용자 피드백 : 검색의 품질을 개선하는 데 활용되는 것으로, 사용자가 직접 검색결과에 피드백을 주는 명시적 피드백(Explicit Feedback)과 사용자의 검색행위를 기록해놓은 검색로그가 대표적인 암묵적 피드백(Implicit Feedback)으로 구분될 수 있다.^[2]

데이터마이닝 기술

데이터 마이닝(Data Mining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다. 또한, 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 온라인 분석 처리(OLAP,On-Line Analytic Processing), 인공지능 진영에서 발전한 자기조직화 지도(SOM,Self-Organizing Map), 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다. 응용 분야로는 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업에서 광범위하게 사용되고 있다. 데이터 마이닝 기술의 적용 분야는 다음과 같다.

분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾는다.
연관성(Association) : 동시에 발생한 사건간의 관계를 정의한다.
연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다.
예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다.

각주

↑ 〈자연 언어 처리〉, 《나무위키》
↑ 〈정보검색 기술〉, 《위키백과》

참고자료

인투더데이터, 〈텍스트마이닝-Text Mining〉, 《인투더데이터》

[.EC.9E.90.EC.97.B0_.EC.96.B8.EC.96.B4_.EC.B2.98.EB.A6.AC-1] 〈자연 언어 처리〉, 《나무위키》

[.EC.A0.95.EB.B3.B4.EA.B2.80.EC.83.89_.EA.B8.B0.EC.88.A0-2] 〈정보검색 기술〉, 《위키백과》

[1]

[2]

@@ 30번째 줄: / 30번째 줄: @@
 * 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다.
 * 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다.
+{{각주}}
 ==참고자료==
 * 인투더데이터, 〈[http://intothedata.com/02.scholar_category/text_mining/ 텍스트마이닝-Text Mining]〉, 《인투더데이터》

위키원

이름공간

변수

보기

더 보기

검색