검수요청.png검수요청.png

텍스트마이닝

위키원
이동: 둘러보기, 검색

텍스트마이닝(text mining)은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형 및 비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 기술이다.

개요

텍스트마이닝(text mining)

텍스트마이닝은 비정형 데이터 마이닝의 유형 중 하나이다. 텍스트마이닝은 비정형 및 반정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공하는 목적으로 한다. 실생활에서 만들어지는 대부분의 자료는 문서 형태인데, 여러 분야의 논문, 신문 또는 잡지의 기사, 여론조사, 콜센터의 전화 보고서, 이메일, 디지털 형태의 문서 등의 형태를 가지고 있다.

문서 형태의 데이터는 기존의 통계분석이나 데이터 마이닝 기법을 적용하기에 부적합한 데이터 형태를 가지고, 대부분 텍스트 데이터베이스에 저장된 데이터는 반 구조적 데이터이다. 이때 반 구조적 데이터란 완전하게 구조적이지도 않고 완전하게 비구조적이지도 않은 데이터를 의미한다. 문서는 제목, 작가, 출판날짜, 길이, 분류 등과 같은 약간의 구조적인 분야들을 포함할 수 있고, 또 문서의 요약, 내용과 같이 크기가 큰 비구조적 텍스트 요소 또한 포함되기 때문에 반 구조적 데이터이다.

데이터마이닝 텍스트마이닝
대상 수치 또는 범주화된 데이터 텍스트
구조 관계형 데이터 구조 비정형 또는 정형의 텍스트 데이터
목적 미래 상황 결과의 예견 및 예측함 적합한 정보를 획득하고 의미를 정제하고 범주화함
방법 기계학습 기계학습, 인덱싱, 언어처리, 온톨로지(Ontology) 등

기술

텍스트마이닝의 주요 기술은 다음과 같다.

자연어처리

자연어처리 기술(NLP, Natural Language Processing)이란, 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야다. 인공지능의 하위 분야로, 1960년 일반적인 인공지능을 만들려던 시도가 실패한 후 인간의 언어를 분석하고 해석하여 처리하는 인공지능이 세분화되면서 생긴 학문 분야이다. 흔히 우리가 아는 말하는 인간과 대화하는 컴퓨터 관련 기술이 이쪽에 속한다. 언어 공학, 컴퓨터과학, 인공지능, 전산언어학(Computational Linguistics)의 연구 분야이며, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 자연어는 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어, 영어와 같이 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미로, 우리가 흔히 말하는 언어를 뜻한다.[1]

언어모델링

언어 모델(Language Model)이란, 언어라는 현상을 표현, 모델링하는 모델을 말한다. 언어라는 현상을 표현한다는 것은 다르게 말하면 기계가 자연어를 생성(NLG, Natural Language Generation)하는 일들을 한다는 것이다. 언어 모델은 자연어 생성 작업에 속하는 음성 인식, 기계 번역, 광학 문자 인식(OCR, Optical Character Recognition), 검색어 자동 완성, 문서 요약과 같은 일들을 수행한다. 조금 더 구체적으로 표현하자면, 언어 모델은 문장(단어 시퀀스)의 확률을 예측하는 모델이다. 언어 모델이 하는 일은 문장의 확률을 예측하는 일을 한다. 이전 단어들을 줬을 때 다음 단어가 나올 확률을 예측한다.

머신 러닝

머신러닝(Machine Learning)이란, 데이터를 이용해서 컴퓨터를 학습시키는 방법론이다. 머신 러닝 알고리즘은 크게 세 가지 분류로 나눌 수 있다.

  • 지도학습(Supervised Learning) : 데이터에 대한 레이블(label), 즉 정답이 주어진 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, '데이터, 레이블'의 형태로 학습을 진행한다.
  • 비지도학습(Unsupervised Learning) : 데이터에 대한 레이블을 주지 않는 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, '데이터'의 형태로만 학습을 진행한다.
  • 강화학습(Reinforcement Learning) : 지도학습과 비지도학습과는 다른 학습 알고리즘이다. 지도학습과 비지도학습과는 달리 주어진 환경에 대해 어떤 행동을 취하고 이로부터 어떤 보상을 얻으면서 학습을 진행하는 방식이다.[2]

데이터마이닝

데이터마이닝(Data Mining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것이다. 또한, 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터마이닝 기법은 통계학 쪽에서 발전한 탐색적자료 분석, 가설 검정, 다변량 분석, 시계열 분석, 일반 선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 온라인 분석 처리(OLAP, On-Line Analytic Processing), 인공지능 진영에서 발전한 자기 조직화 지도(SOM, Self-Organizing Map), 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다. 응용 분야로는 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업에서 광범위하게 사용되고 있다. 데이터 마이닝 기술의 적용 분야는 다음과 같다.

  • 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
  • 군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾는다.
  • 연관성(Association) : 동시에 발생한 사건 간의 관계를 정의한다.
  • 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다.
  • 예측(Forecasting) : 대용량 데이터 집합 내의 패턴을 기반으로 미래를 예측한다.

활용

개인 신용 측정

은행들은 자연어처리 기술을 사용하여 개인의 신용정보가 부족한 경우에도 고객의 신용도를 측정할 수 있게 되었다. 설령 신용거래 기록이 전무하더라도, 여전히 대다수의 사람은 스마트폰을 사용하고 있으며 이로 인해 인터넷 검색기록과 디지털화된 기록들을 많이 남기게 된다. 자연어처리 알고리즘은 위치 데이터, 소셜네트워크 활동, 인터넷 검색기록들을 분석하여 고객들의 습관이나 인적 네트워크들을 파악하게 되는데, 이러한 고객들의 다양한 정보 변수들을 분석해냄으로써, 자연어처리 소프트웨어는 고객별 신용도를 계량화해낼 수 있다.

예를 들어 싱가포르 기업인 렌도(Lenddo)는 4년간 온라인 대출사업을 진행해 왔고 이를 통해 방대한 데이터 분석 처리 노하우를 쌓아왔다. 이를 바탕으로 2015년 렌도는 자체 개발한 API은행이나 대부업체, 신용카드 회사들에게 제공함으로써, 해당 업체들이 리스크를 줄이고 포트폴리오를 키우며, 고객서비스를 개선할 수 있도록 도와주고 있다.

자동번역

자동번역 서비스는 신경 기계 번역(NMT, Neural Machine Translation)의 등장으로 비약적인 발전을 이루게 된다. 2016년 마이크로소프트사의 빙(Bing)을 필두로, 구글아마존과 같은 업체들이 해당 분야에서 치열하게 경쟁하고 있다. 여기서 자연어처리 기술의 역할은 인공신경망을 훈련하는 역할을 담담하게 된다. 기업은 이메일 번역과 같은 업무에 이를 활용하여 고객과의 커뮤니케이션 응답시간을 단축하고 있다.

챗봇

1966년, 음성과 자연어처리 기술의 만남은 챗봇을 새로운 경지의 서비스로 탈바꿈시켰다. 오늘날 챗봇은 인간과 유사한 수준의 지능을 탑재하고 인간의 감정까지 파악할 정도로 발전했다. 챗봇을 활용하는 기업은 점점 늘어가고 있으며, IT 전문 리서치 기관인 가트너(Gartner)는 2020년까지 챗봇이 전체 고객 응대 업무를 85%를 담당하리란 예측도 했다. 챗봇은 개인별 맞춤 서비스를 제공할 수 있다. 고객과 관련된 데이터를 수집하고 고객의 성향을 미리 파악해냄으로써, 사람 간 커뮤니케이션에서 발생할 수 있는 불필요한 스트레스를 줄일 수 있다. 더욱이 챗봇은 세일즈 분야에서 그 영역을 확대해 가고 있다. 잠재 고객을 찾아내어 대화를 유도하고, 미팅 일정을 잡는 등의 일들은 이제 챗봇이 담당하는 경우가 많아졌다. 기업들은 이러한 기술에 투자를 늘려가면서 재미를 보고 있다. 예를 들어 ASOS란 온라인 쇼핑업체는 챗봇 메신저 기술을 도입 후 타깃 유저 수를 4배 이상 늘렸고, 주문량은 3배 이상 증가했으며, 투자대비수익률(ROI)는 250%에 달하게 됐다.

감정 분석

판매 및 마케팅 전략 수립 시에 자연어처리 기술을 통한 감정분석 기술은 회사 브랜드에 대해 고객들이 어떻게 느끼고 있는지를 판단하는 데 큰 도움을 준다. 흔히 오피니언 마이닝이라 불리는 이러한 기술은 뉴스나 SNS 등의 분석을 통해 그 안에 사용된 단어마다 그 단어가 가지는 부정적, 긍정적, 혹은 중립과 같은 감정을 이해하고 표현의 강도에 따른 정량적인 값을 부여한다. 스위스의 핀테크 스타트업 회사인 센티피(SENTIFI)는 자연어처리 기술을 통해 오피니언리더를 찾아내고 어떤 이들이 브랜드를 선호하는지 알아낸다. 오늘날 자연어처리 알고리즘은 행복, 짜증, 분노, 슬픔과 같은 감정을 알아낼 정도로 발전해왔다. 두말할 것도 없이 마케터들은 이러한 기술의 발전에 힘입어, 판매 전략 수립과 마케팅 의사결정에 필요한 강력한 툴을 지니게 되었다.

유럽의 한 유명한 소매 판매 기업은 최근 자연어처리 기술과 텍스트마이닝 기술을 활용하여 고객 피드백 분석 시스템을 구축하고자 우크라이나 인공지능 개발팀을 고용했다. 고객의 피드백 내에서 그들의 감정을 분석할 수 있는 툴을 개발함으로써, 회사는 고객 충성도를 올리고 사업의 다양화를 꾀하며, 제품의 적정마진을 확보하고자 한다. 소프트웨어 개발을 담당했던 8올로케이트(8allocate)는 많은 양의 데이터 정리 및 처리작업에 착수했으며, 언어의 형태 소화 작업과 이에 수반되는 동의어, 의미추론, 화자의 어조 등을 분석해내는 작업을 진행한 결과, 언어별 특성, 줄임 말, 연음, 지역별 방언을 각각 분석하고 이를 기반으로 고객의 피드백이 지니는 통합적인 의미를 찾아낼 수 있게 됐다. 이 시스템의 도입 1년 만에 고객사는 전년 대비 30%의 매출 성장을 달성할 수 있게 됐다.

채용 및 고용

채용담당자는 자연어처리 기술을 활용하여 일일이 수작업에 의존하지 않고도 이력서를 빠르게 검토할 수 있게 됐다. 특히, 특정 지원자로의 편향을 막는 객관적이고 중립적인 채용공고를 작성할 수 있도록 지원하여 보다 효율적으로 구직자를 찾아낼 수 있게 됐다. 자연어처리 소프트웨어는 이력서에 사용된 단어와 표현과 의미 분석을 통해 채용공고에 가장 적합한 지원자들을 빠르게 찾아낸다. 한가지 예로 텍시오(Texio) 애플리케이션은 자연어처리의 의미분석 알고리즘을 이용하여 채용공고를 가장 많은 지원자들이 볼 수 있게끔 작성하도록 도와주고 있다.

광고

자연어처리 기술은 개인의 소셜네트워크서비스, 이메일, 검색기록과 같은 소위 디지털 발자취들을 분석하여, 광고주들이 잠재고객을 발견하는 데 큰 공을 세우고 있다. 단순한 검색 키워드 매칭을 통해서 자연어처리 소프트웨어는 어디에 광고해야 할지에 대한 정보를 제공하며, 이를 통해 기업은 광고 예산을 보다 효율적으로 집행할 수 있게 되었다. 물론 각각의 단어나 문장이 해당 문맥 속에서 어떤 의미를 지니는지 정확히 파악하기까지는 다소 시간이 걸리겠지만, 자연어처리 기술은 여전히 광고산업에 있어 큰 역할을 수행하고 있다.

마켓 인텔리전스

넘쳐나는 정보의 홍수 속에서, 업계 최신 동향이나 관련 이벤트 소식을 선별하여 꾸준히 접하기란 쉬운 일이 아니다. 특히 마케터들 입장에서는 단순한 미디어 모니터링작업을 넘어서는 많은 양의 작업이 필요하다. 즉 수백만 개의 블로그, 웹사이트, SNS 포스팅들을 모니터링하여 해당 업계에서 어떠한 일이 일어나고 있는지에 대한 정보를 꾸준히 업데이트해 나가는 것이 중요하다. 자연어처리 소프트웨어는 경쟁사 동향 및 최신 업계 소식을 지속해서 업데이트하여 마케터들이 맞춤 전략을 구사할 수 있도록 도와준다.

의료 분야

의료 분야에서 자연어처리 기술이 활용되는 사례를 크게 세 가지로 분류할 수 있다.

  • 본연적 기능 : 음성인식, 임상 기록 개선, 데이터마이닝 리서치, 의료 기록지를 분석하여 문서 내의 진료 관련 특정 단어나 어구들을 찾아내어 코드화하는 작업(Computer-Assisted Coding, CAC)
  • 개발 진행 중인 기능 : 임상시험 매칭, 임상 의사결정 지원, 환자 리스크 관리
  • 차세대 기능 : 진료 중 환자의 상태 등을 진료 중 차트에 자동으로 기록해주는 도구인 Virtual Scribe, 유전 표현 형질 발견, 개체군 조사

문제점

텍스트 마이닝의 문제점은 크게 두 가지가 있다. 하나는 자연어에 영향을 많이 받는다는 것인데, 자연어란 사람이 쓰는 말로 한국어, 일본어, 독일어, 영어 등을 의미한다. 자연어 중 한글이나 한국어 처리에서 문제가 있는 분야는 광학 문자판독, 음성인식 그리고 감성 분석 등이 있다. 또 하나의 문제점은 분석 결과물 자체로 어떤 성과를 보기 어렵다는 것이다. 이는 분석 결과물 자체를 그대로 비즈니스 모델에 적용해서 뭔가를 만들어 성과를 보기 어렵다는 의미이다.

각주

참고자료

같이 보기


  검수요청.png검수요청.png 이 텍스트마이닝 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.