텍스트마이닝
텍스트마이닝(Text Mining)은 작성자가 개념을 표현하기 위해 사용한 정확한 단어와 용어를 모르더라도 주요 개념과 테마를 캡처하고 숨겨진 관계와 경향을 발견하기 위해 텍스트 자료 콜렉션을 분석하는 프로세스이다.
개요
기술
텍스트마이닝을 위한 기술은 다음과 같다.
자연어처리 기술
자연어처리 기술(NLP,Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문분야다. 인공지능의 하위 분야로, 일반적인 인공지능을 만들려던 1960년대의 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야로 흔히 우리가 아는 말하는 컴퓨터와 인간과 대화하는 컴퓨터 관련 기술이 이 쪽에 속한다.언어공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.
정보검색 기술
정보검색 기술(IR,Information Retrieval)이란, 집합적인 정보로부터 원하는 내용과 관련이 있는 부분을 얻어 내는 행위를 말한다. 이를 위해 메타데이터나 색인이 사용될 수 있다. 자동화된 정보 검색 시스템은 소위 '정보 과부화'라 불리는 상태를 완화시키기 위해 사용된다. 많은 대학 및 공공 도서관들이 보유 서적 및 저널, 각종 문서들에 대한 접근성을 제공하기 위해 정보 검색 시스템을 구축한다. 웹 검색 엔진도 정보검색 기술 중에 하나다. 정보검색시스템은 다음과 같이 다섯 가지 요소로 구성되어 있다.
- 데이터집합 : 검색의 대상이 되는 데이터로서 크게 데이터베이스형과 문서형으로 구분한다. 데이터베이스형은 날씨, 주가, 기차시간표 등과 같이 일정한 스키마를 갖고 데이터베이스에 저장되어 있는 데이터인 반면에, 문서형은 제목과 본문, 생성날짜 등으로 구성된 데이터를 말한다. 문서형은 다시 정형적 문서형과 비정형적 문서형으로 나뉘는데, 정형적 문서형은 지식검색데이터나 블로그데이터와 같이 비교적 나름대로의 서식을 갖추고 있는 데이터이고, 비정형적 문서형은 웹문서와 같이 상대적으로 자유로운 형식의 데이터를 의미한다.
- 색인 :