데이터마이닝

데이터마이닝(data mining)은 대용량의 데이터 속에서 유용한 정보를 발견하는 과정이며, 기대했던 정보뿐만 아니라 기대하지 못했던 정보를 찾을 수 있는 기술을 의미한다.

개요

데이터마이닝은 데이터베이스 내에서 어떠한 방법(순차 패턴, 유사성 등)에 의해 관심 있는 지식을 찾아내는 과정으로, 데이터 정보의 연관성을 파악함으로써 가치있는 정보를 만들어 의사 결정에 적용함으로써 이익을 극대화시킬 수 있다. 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고, 이를 실제 비즈니스 의사 결정 등을 위한 정보로 활용하는 것이다. 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용한다. 수많은 데이터가 저장된 방대한 데이터베이스 또는 데이터웨어하우스 속에서 데이터간의 상관관계 분석, 시간에 따른 유형분석, 일정한 기준에 따른 분활 및 분석등을 통해 의사결정자에게 유용한 정보를 제공한다. 데이터마이닝은 대량의 데이터 사이에 존재하는 관계나 패턴을 발견하고 규칙을 추론함으로써 의사결정을 지원하고 그 효과를 예측하기 위한 기법이다.

등장배경

데이터마이닝 등장 이전의 환경

1980년대 대부분의 기업이 고객과 경쟁사 및 제품에 대한 데이터를 담고있는 데이터베이스 정보 인프라를 인식하고 구축하게 되었으며 SQL이나 질의도구로는 찾아내기 어려운 정보를 포함하는 방대한 규모의 데이터베이스를 형성하게 되었다. 네트워크 사용의 증가로 다수의 데이터베이스에 대한 접근이 용이해짐에 따라, 고객의 소비행위를 파악함으로써 이제까지 알 수 없었던 새로운 지식을 얻을 수 있게 되었다.

데이터 관련기술의 발전 과정

데이터 수집 : 데이터 수집에 중점, 파일 처리 방식, 테이프, 디스크
데이터 접근 : 데이터 접근에 중점, SQL, 관계데이터 관리시스템
데이터 웨어하우스 : 과거의 데이터를 여러가지 관점에서 동적으로 접근하여 분산된 데이터 정보 통합,OLAP^[1](ON-line Analytical Processing)
데이터 마이닝 : 예측 중심의 데이터 분석 및 정보전달, 대용량 데이터베이스

특징

대용량의 관측 자료 취급

실험 자료는 가설검정 등의 구체적인 문제에 답하기 위하여 여러 요인들이 통제되고 조작된 가운데 만들어진다. 그러나 관측자료는 시간의 흐름에 따라서 비계획적으로 축적되며, 일반적으로 자료분석을 염두에 두고 수집되지 않는다.

경험적 방법에 근거

많은 데이터마이닝 기법들은 이론적원리에 기초하여 개발되었다기보다는 경험에 기초하여 개발되었다. 이러한 기법들은 그 특성이 수리적으로 밝혀지지 않은 것들이 많다.

일반화에 초점

일반화는 예측모델이 새로운 자료에 얼마나 잘 적용되도록 하는 것으로, 일반화를 통해 데이터마이닝 기법의 비정형성을 해결하고 보완하여 주는데 도움을 준다.

기능

분류

분류는 가장 많이 사용되는 데이터마이닝 작업의 기능으로서 새로운 대상의 특징들을 조사하고 이를 미리 정해진 부류들 중의 하나로 배정하는 것이다. 분류의 대상은 데이터베이스 내의 레코드, 즉 데이터웨어하우스의 모든 데이터가 되며 이 데이터들은 각 부류의 코드를 할당하는 일이 분류이다. 분류는 경우가 일어날 가능성이 높은 집단과 낮은 집단의 분류에 많이 이용되며 대출 신청자들의 신용 위험도를 높음,중간,낮음으로 나누는 등의 방식으로 이용될 수 있다. 분류를 구현하기 위한 알고리즘과 기법은 의사결정트리, 신경망분석, 회귀분석이 있다.

예측

예측은 분류나 순차패턴과 유사하나 산정되는 대상을 미래의 가치또는 예측되는 미래행위에 따라 데이터를 분류하는 점이 다르다. 예측의 특성 및 알고리즘은 주로 어떠한 흐름을 분석하고 이를 토대로 향후의 변화를 예측하는데 이용된다. 고객의 잠정 이탈 예측이나 어떤 전화가입자들이 부가 서비스를 주문할 것인지 등을 예측작업에 활용할 수 있다. 예측을 구현하기 위한 알고리즘과 기법은 의사결정트리, 신경망분석이 있다.

군집

군집은 여러다른 특성을 가지는 전체 데이터를 동질성을 가진 몇개의 소그룹이나 분할로 나누는 것으로 다양한 형태의 데이터가 모여있는 각 데이터베이스 내의 요점을 얻기위한 수단으로 이용된다. 군집은 몇개의 그룹으로 분류한다는 점에서 분류와 유사하지만 군집은 미리 전해진 부류에 의존하지 않으며, 주로 데이터마이닝의 여러기법을 사용하기 이전에 데이터 분류등의 사전작업에 이용된다. 군집은 백화점 등에서 고객을 유사한 특성을 가집 집단으로 분류하여 특성에 맞는 상품 및 서비스를 제공하는 등에 활용할 수 있으며, 군집 알고리즘은 군집분석, 신경망분석이 있다.

연관성

연관성은 일반적으로 교차판매를 위해 사용되며, 다수의 다양한 사건들 중 두가지 이상의 사건이 동시에 일어날 가능성 및 패턴을 발견하는 것이다. 연관성은 데이터베이스 내의 데이터 간에 존재하는 항목간의 유용한 관련규칙을 발견하고자 할때 이용한다. 주로 동시에 판매될 가능성이 높은 상품들의 연관성을 발견하거나 패키지 기획, 상품진열순서 결정 등에 이용될 수 있다.

순차패턴

순차패턴은 다수의 다양한 사건들 중 어떠한 규칙성을 가지고 시차적으로 일어나는 사건의 패턴을 발견하는 것이다. 순차패턴의 특성으로는 한 상품의 판매 후 이어서 판매될 가능성이 높은 상품을 판별하는데 도움을 준다는 것이다.

단계

요구분석 단계

해결할 비즈니스 문제에 대한 정의와 결과에 대한 목표를 설정하여 현재 가지고 있는 데이터의 종류와 성격을 분석하고 비즈니스 목적을 위한 다양한 질문을 작성한다. 데이터마이닝으로 얻어진 정보에 대한 활용 방안과 실제 업무와의 연계성을 고려하여 적용업무의 범위가 특정한 분야로 한정되는 것이 성공가능성이 높다.

변환과 탐색 단계

데이터를 실제 데이터마이닝 사용과정에서 사용할 수 있도록 준비하는 과정으로 데이터 선정, 정제, 변환의 과정을 거친다. 데이터 선정은 데이터마이닝 작업에 필요한 목표데이터를 선별하는작업으로 사용할 운영 데이터베이스를 선택하고 필요한 데이터에 대한 추가수집을 한다. 데이터 정제는 선정된 데이터에서 부정확한 값이나 중복된 레코드를 삭제하거나 필드를 정리,조정하는 등 데이터의 질을 향상시키는 것이다. 데이터 변환과정은 데이터마이닝 기법에 적합한 형태로 데이터를 변환하는 것으로 데이터웨어하우스가 구축된 경우 구축과정에서 이미 실행되었거나 추가작업이 필요한 경우, 데이터웨어하우스 내에서 작업하는것이 효과적이다.

적용 단계

데이터마이닝이 실제적으로 이루어지는 과정으로 데이터웨어하우스의 데이터마트 구축, 데이터 추출변환 샘플링, 유의한 변수 선정, 모델링, 모델 평가의 과정을 거치게 된다. 업무의 성격과 데이터 구조에 알맞은 데이터마이닝 모델과 기법을 적용하여 분석한 결과를 최종 사용자가 이해하기 쉬운 형식으로 표시한다.

판단 및 해석 단계

데이터마이닝 분석결과가 적용업무에 부합되는지 판단하기 위하여 최종 사용자분석 전문가들과 토론하여 잘못된 결과를 찾아 원인을 해석하는 단계이다. 해석결과를 사용자에게 쉽게 전달하기 위하여 데이터 시각화도구나 리포팅 도구를 사용하고 모델의 성능을 시각적으로 분석할 수 있는 차트를 활용한다.

평가 및 피드백 단계

실제업무에서의 적용결과나 효과를 토대로 향상된 정보를 얻기위해 데이터마이닝의 초기단계로 돌아가 작업이 이루어진다. 얻을 수 있는 정보의 형태가 다양하므로, 연관성 탐사,연속성 탐사 등의 기법을 활용하여 피드백한다.

결과의 통합 단계

데이터마이닝의 결과는 사용자가 해석가능한 용어 또는 의사결정에 이용할 수 있는 지식으로 표현되어야 한다. 성공적인 데이터마이닝 테스트의 결과는 의사결정 문제의 해결을 위해서 사용되며, 사후처리를 위해 다른사람이 시스템에 통합되거나 필요로 하는 사용자를 위해서 문서화 된다.

활용

데이터마이닝의 의료분야 활용

모든환자의 인구통계학적, 환경적, 계층별,지역별 등의 일반적 자료와 각 환자의 과거 진료기록이나 유전적 형질의 특성과 같은 개인적 자료가 공유되는 경우 데이터마이닝이 적용된다면 질병의 자동진단 체계 및 예방 의료체계는 보다 쉽게 수립 될 것이다. 데이터마이닝의 의료분야 내용으로는 환자마케팅, 의료시설배치, 미수금관리, 진료행위프로토콜 개발, 진료비삭감 예방,진료진단, 재원일수 및 진료비 예측, 자원사용량 예측, 추정예산, 의학 연구 등이 있다.

각주

↑ 〈OLAP(ON-line Analytical Processing)〉, 《네이버 지식백과》

참고자료

〈데이터마이닝 : 컴퓨터인터넷IT용어대사전〉 , 《네이버 지식백과》
〈데이터마이닝(data mining)〉 , 《두산백과》
〈데이터마이닝〉 , 《위키백과》
Dandy Vae, 〈[1]〉 ,《네이버 블로그 》, 2016-05-10
〈SQL(Structured Query Language)〉, 《네이버 지식백과》
〈OLAP(ON-line Analytical Processing)〉, 《네이버 지식백과》

같이 보기

이 데이터마이닝 문서는 알고리즘에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

블록체인 : 블록체인 기술, 합의 알고리즘, 암호 알고리즘, 알고리즘^□^■^⊕, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스

채굴 알고리즘	SHA-256 • X11 • X11고스트 • X13 • X14 • X15 • X16R • X17 • 그로스톨 • 네오스크립트 • 니스트5 • 리라2알이 • 미리아드-그로스톨 • 블레이크 • 블레이크2 • 블레이크B • 블레이크2B • 블레이크256R8 • 블레이크256R14 • 스컹크해시 • 스케인 • 스크립트 알고리즘 • 스크립트엔 • 엘비알와이(LBRY) • 이더해시 • 이퀴해시 • 제반 • 쿼크 알고리즘 • 큐빗 알고리즘 • 크립토나이트 • 크립토나이트 라이트 • 타임트래블10 • 텐서리티 • 파스칼 • 프로그작업증명(ProgPoW)

매칭 알고리즘	BM25 • FAISS • 경매 • 더치 경매 • 매칭 알고리즘 • 매칭튜터 • 벡터검색 • 비크리 경매 • 센디 • 집닥 • 튜다 • 틴더

추천 알고리즘	TF-IDF • 역문서빈도(IDF) • 용어빈도(TF) • 추천 알고리즘 • 콘텐츠 기반 필터링 • 협업 필터링

고급 검색 알고리즘	AND-OR 검색 트리 • 국소 검색 알고리즘 • 국소 다발 검색 • 모의정련 • 언덕 오르기 검색 • 유전 알고리즘

대항 검색	검색의 차단 • 알파베타 가지치기 • 전방 가지치기 • 최소최대 알고리즘

제약 만족 문제	국소검색 • 역추적검색 • 제약전파

게임이론	게임이론 • 공유지의 비극 • 내시균형 • 메커니즘 디자인 • 비협조게임 • 사회선택이론 • 역게임이론 • 제로섬게임 • 조정게임 • 죄수의 딜레마 • 치킨게임 • 팃포탯 • 협조게임

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 〈OLAP(ON-line Analytical Processing)〉, 《네이버 지식백과》

[1]

위키원

이름공간

변수

보기

더 보기

검색

데이터마이닝

목차

개요

등장배경

특징

기능

단계

활용

데이터마이닝의 의료분야 활용

각주

참고자료

같이 보기