"텍스트마이닝"의 두 판 사이의 차이
(새 문서: '''텍스트마이닝'''(Text Mining)은 작성자가 개념을 표현하기 위해 사용한 정확한 단어와 용어를 모르더라도 주요 개념과 테마를 캡처하고 숨...) |
|||
14번째 줄: | 14번째 줄: | ||
* 데이터집합 : 검색의 대상이 되는 데이터로서 크게 데이터베이스형과 문서형으로 구분한다. 데이터베이스형은 날씨, 주가, 기차시간표 등과 같이 일정한 [[스키마]]를 갖고 데이터베이스에 저장되어 있는 데이터인 반면에, 문서형은 제목과 본문, 생성날짜 등으로 구성된 데이터를 말한다. 문서형은 다시 정형적 문서형과 비정형적 문서형으로 나뉘는데, 정형적 문서형은 지식검색데이터나 블로그데이터와 같이 비교적 나름대로의 서식을 갖추고 있는 데이터이고, 비정형적 문서형은 웹문서와 같이 상대적으로 자유로운 형식의 데이터를 의미한다. | * 데이터집합 : 검색의 대상이 되는 데이터로서 크게 데이터베이스형과 문서형으로 구분한다. 데이터베이스형은 날씨, 주가, 기차시간표 등과 같이 일정한 [[스키마]]를 갖고 데이터베이스에 저장되어 있는 데이터인 반면에, 문서형은 제목과 본문, 생성날짜 등으로 구성된 데이터를 말한다. 문서형은 다시 정형적 문서형과 비정형적 문서형으로 나뉘는데, 정형적 문서형은 지식검색데이터나 블로그데이터와 같이 비교적 나름대로의 서식을 갖추고 있는 데이터이고, 비정형적 문서형은 웹문서와 같이 상대적으로 자유로운 형식의 데이터를 의미한다. | ||
− | * 색인 : | + | * 색인 : 문서형데이터집합에 대하여, 각 단어별 문서리스트를 생성한 것을 의미하며, 흔히 역문서리스트(Inverted List)라는 용어로도 표현한다. 색인방식에 따라 데이터집합을 한꺼번에 색인하는 일괄색인(Batch Indexing)과 점증색인(Incremental Indexing)으로 구분되는데, 뉴스검색은 대표적으로 점증색인을 적용하는 분야이다. |
+ | |||
+ | * 랭킹 : 입력된 질의(Query)에 대하여 가장 적합한 순으로 문서형데이터들을 나열하는 작업을 의미하며, 이를 위한 다양한 검색알고리즘이 존재한다. 여기서 적합성은 질의와 문서와의 유사성, 문서의 최신성, 문서 고유의 품질 그리고 사용자 검색로그를 포함한 기타 여러 정보가 적절히 혼합되어 판단할 수있다. | ||
+ | |||
+ | * 표현 : 검색의 결과는 구글과 같이 단순리스트형식으로 사용자에게 제시될 수도 있고, 유사한 결과들이 그룹화되어 제시될 수도 있으며, 데이터의 종류등으로 구분되어 제시될 수도 있다. | ||
+ | |||
+ | * 사용자 피드백 : 검색의 품질을 개선하는 데 활용되는 것으로, 사용자가 직접 검색결과에 피드백을 주는 명시적 피드백(Explicit Feedback)과 사용자의 검색행위를 기록해놓은 검색로그가 대표적인 암묵적 피드백(Implicit Feedback)으로 구분될 수 있다. | ||
===데이터마이닝 기술=== | ===데이터마이닝 기술=== |
2019년 9월 16일 (월) 15:19 판
텍스트마이닝(Text Mining)은 작성자가 개념을 표현하기 위해 사용한 정확한 단어와 용어를 모르더라도 주요 개념과 테마를 캡처하고 숨겨진 관계와 경향을 발견하기 위해 텍스트 자료 콜렉션을 분석하는 프로세스이다.
개요
기술
텍스트마이닝을 위한 기술은 다음과 같다.
자연어처리 기술
자연어처리 기술(NLP,Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이 쪽에 속한다.언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.
정보검색 기술
정보검색 기술(IR,Information Retrieval)이란, 집합적인 정보로부터 원하는 내용과 관련이 있는 부분을 얻어 내는 행위를 말한다. 이를 위해 메타데이터나 색인이 사용될 수 있다. 자동화된 정보 검색 시스템은 소위 '정보 과부화'라 불리는 상태를 완화시키기 위해 사용된다. 많은 대학 및 공공 도서관들이 보유 서적 및 저널, 각종 문서들에 대한 접근성을 제공하기 위해 정보 검색 시스템을 구축한다. 웹 검색 엔진도 정보검색 기술 중에 하나다. 정보검색시스템은 다음과 같이 다섯 가지 요소로 구성되어 있다.
- 데이터집합 : 검색의 대상이 되는 데이터로서 크게 데이터베이스형과 문서형으로 구분한다. 데이터베이스형은 날씨, 주가, 기차시간표 등과 같이 일정한 스키마를 갖고 데이터베이스에 저장되어 있는 데이터인 반면에, 문서형은 제목과 본문, 생성날짜 등으로 구성된 데이터를 말한다. 문서형은 다시 정형적 문서형과 비정형적 문서형으로 나뉘는데, 정형적 문서형은 지식검색데이터나 블로그데이터와 같이 비교적 나름대로의 서식을 갖추고 있는 데이터이고, 비정형적 문서형은 웹문서와 같이 상대적으로 자유로운 형식의 데이터를 의미한다.
- 색인 : 문서형데이터집합에 대하여, 각 단어별 문서리스트를 생성한 것을 의미하며, 흔히 역문서리스트(Inverted List)라는 용어로도 표현한다. 색인방식에 따라 데이터집합을 한꺼번에 색인하는 일괄색인(Batch Indexing)과 점증색인(Incremental Indexing)으로 구분되는데, 뉴스검색은 대표적으로 점증색인을 적용하는 분야이다.
- 랭킹 : 입력된 질의(Query)에 대하여 가장 적합한 순으로 문서형데이터들을 나열하는 작업을 의미하며, 이를 위한 다양한 검색알고리즘이 존재한다. 여기서 적합성은 질의와 문서와의 유사성, 문서의 최신성, 문서 고유의 품질 그리고 사용자 검색로그를 포함한 기타 여러 정보가 적절히 혼합되어 판단할 수있다.
- 표현 : 검색의 결과는 구글과 같이 단순리스트형식으로 사용자에게 제시될 수도 있고, 유사한 결과들이 그룹화되어 제시될 수도 있으며, 데이터의 종류등으로 구분되어 제시될 수도 있다.
- 사용자 피드백 : 검색의 품질을 개선하는 데 활용되는 것으로, 사용자가 직접 검색결과에 피드백을 주는 명시적 피드백(Explicit Feedback)과 사용자의 검색행위를 기록해놓은 검색로그가 대표적인 암묵적 피드백(Implicit Feedback)으로 구분될 수 있다.