데이터마이닝

데이터마이닝(data mining)은 대용량의 데이터 속에서 유용한 정보를 발견하는 과정이며, 기대했던 정보뿐만 아니라 기대하지 못했던 정보를 찾을 수 있는 기술을 의미한다.

개요

데이터마이닝은 데이터 베이스 내에서 어떠한 방법(순차 패턴, 유사성 등)에 의해 관심 있는 지식을 찾아내는 과정으로, 데이터 정보의 연관성을 파악함으로써 가치있는 정보를 만들어 의사 결정에 적용함으로써 이익을 극대화시킬 수 있다. 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고, 이를 실제 비즈니스 의사 결정 등을 위한 정보로 활용하는 것이다. 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용한다.

등장배경

데이터마이닝 등장 이전의 환경

1980년대 대부분의 기업이 고객과 경쟁사 및 제품에 대한 데이터를 담고있는 데이터베이스 정보 인프라를 인식하고 구축하게 되었으며 SQL이나 질의도구로는 찾아내기 어려운 정보를 포함하는 방대한 규모의 데이터베이스를 형성하게 되었다. 네트워크 사용의 증가로 다수의 데이터 베이스에 대한 접근이 용이해짐에 따라, 고객의 소비행위를 파악함으로써 이제까지 알 수 없었던 새로운 지식을 얻을 수 있게 되었다.

데이터 관련기술의 발전 과정

데이터 수집 : 데이터 수집에 중점, 파일 처리 방식, 테이프, 디스크
데이터 접근 : 데이터 접근에 중점, SQL^[1](Structured Query Language), 관계데이터 관리시스템
데이터 웨어하우스 : 과거의 데이터를 여러가지 관점에서 동적으로 접근하여 분산된 데이터 정보 통합, OLAP^[2](ON-line Analytical Processing)
데이터 마이닝 : 예측중심의 데이터 분석 및 정보전달, 대용량 데이터베이스

특징

데이터마이닝 특징

대용량의관측 자료 취급

실험 자료는 가설검정 등의 구체적인 문제에 답하기 위하여 여러 요인들이 통제되고 조작된 가운데 만들어진다. 그러나 관측자료는 시간의 흐름에 따라서 비계획적으로 축적되며, 일반적으로 자료분석을 염두에 두고 수집되지 않는다.

경험적 방법에 근거

많은 데이터마이닝 기법들은 이론적원리에 기초하여 개발되었다기보다는 경험에 기초하여 개발되었다. 이러한 기법들은 그 특성이 수리적으로 밝혀지지 않은 것들이 많다.

일반화에 초점

일반화는 예측모델이 새로운 자료에 얼마나 잘 적용되도록 하는 것으로, 일반화를 통해 데이터마이닝 기법의 비정형성을 해결하고 보완하여 주는데 도움을 준다.

데이터마이닝 기능

분류

분류는 가장 많이 사용되는 데이터마이닝 작업의 기능으로서 새로운 대상의 특징들을 조사하고 이를 미리 정해진 부류들 중의 하나로 배정하는 것이다. 분류의 대상은 데이터베이스 내의 레코드, 즉 데이터 웨어하우스의 모든 데이터가 되며 이 데이터들은 각 부류의 코드를 할당하는 일이 분류이다. 분류는 경우가 일어날 가능성이 높은 집단과 낮은 집단의 분류에 많이 이용되며 대출 신청자들의 신용 위험도를 높음,중간,낮음으로 나누는 등의 방식으로 이용될 수 있다. 분류를 구현하기 위한 알고리즘과 기법은 의사결정트리, 신경망분석, 회귀분석이 있다.

예측

예측은 분류나 순차패턴과 유사하나 산정되는 대상을 미래의 가치또는 예측되는 미래행위에 따라 데이터를 분류하는 점이 다르다. 예측의 특성 및 알고리즘은 주로 어떠한 흐름을 분석하고 이를 토대로 향후의 변화를 예측하는데 이용된다. 고객의 잠정 이탈 예측이나 어떤 전화가입자들이 부가 서비스를 주문할 것인지 등을 예측작업에 활용할 수 있다. 예측을 구현하기 위한 알고리즘과 기법은 의사결정트리, 신경망분석이 있다.

군집

군집은 여러다른 특성을 가지는 전체 데이터를 동질성을 가진 몇개의 소그룹이나 분할로 나누는 것으로 다양한 형태의 데이터가 모여있는 각 데이터베이스 내의 요점을 얻기위한 수단으로 이용된다. 군집은 몇개의 그룹으로 분류한다는 점에서 분류와 유사하지만 군집은 미리 전해진 부류에 의존하지 않으며, 주로 데이터마이닝의 여러기법을 사용하기 이전에 데이터 분류등의 사전작업에 이용된다. 군집은 백화점 등에서 고객을 유사한 특성을 가집 집단으로 분류하여 특성에 맞는 상품 및 서비스를 제공하는 등에 활용할 수 있으며 군집 알고리즘은 군집분석, 신경망분석이 있다.

연관성

연관성은 일반적으로 교차판매를 위해 사용되어지며, 다수의 다양한 사건들 중 두가지 이상의 사건이 동시에 일어날 가능성 및 패턴을 발견하는 것이다. 연관성은 데이터베이스 내의 데이터 간에 존재하는 항목간의 유용한 관련규칙을 발견하고자 할때 이용한다. 주로 동시에 판매될 가능성이 높은 상품들의 연관성을 발견하거나 패키지 기획, 상품진열순서 결정 등에 이용될 수 있다.

순차패턴

순차패턴은 다수의 다양한 사건들 중 어떠한 규칙성을 가지고 시차적으로 일어나는 사건의 패턴을 발견하는 것이다. 순차패턴의 특성으로는 한 상품의 판매 후 이어서 판매될 가능성이 높은 상품을 판별하는데 도움을 준다는 것이다.

활용

전망

각주

↑ 〈SQL(Structured Query Language)〉, 《네이버 지식백과》
↑ 〈OLAP(ON-line Analytical Processing)〉, 《네이버 지식백과》

참고자료

〈데이터마이닝 : 컴퓨터인터넷IT용어대사전〉 , 《네이버 지식백과》
〈데이터마이닝(data mining)〉 , 《두산백과》
〈데이터마이닝〉 , 《위키백과》
Dandy Vae, 〈[1]〉 ,《네이버 블로그 》, 2016-05-10
〈SQL(Structured Query Language)〉, 《네이버 지식백과》
〈OLAP(ON-line Analytical Processing)〉, 《네이버 지식백과》

같이 보기

이 데이터마이닝 문서는 알고리즘에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.

블록체인 : 블록체인 기술, 합의 알고리즘, 암호 알고리즘, 알고리즘^□^■^⊕, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스

채굴 알고리즘	SHA-256 • X11 • X11고스트 • X13 • X14 • X15 • X16R • X17 • 그로스톨 • 네오스크립트 • 니스트5 • 리라2알이 • 미리아드-그로스톨 • 블레이크 • 블레이크2 • 블레이크B • 블레이크2B • 블레이크256R8 • 블레이크256R14 • 스컹크해시 • 스케인 • 스크립트 알고리즘 • 스크립트엔 • 엘비알와이(LBRY) • 이더해시 • 이퀴해시 • 제반 • 쿼크 알고리즘 • 큐빗 알고리즘 • 크립토나이트 • 크립토나이트 라이트 • 타임트래블10 • 텐서리티 • 파스칼 • 프로그작업증명(ProgPoW)

매칭 알고리즘	경매 • 더치 경매 • 매칭 알고리즘 • 매칭튜터 • 비크리 경매 • 센디 • 집닥 • 튜다 • 틴더

추천 알고리즘	TF-IDF • 추천 알고리즘 • 콘텐츠 기반 필터링 • 협업 필터링

고급 검색 알고리즘	AND-OR 검색 트리 • 국소 검색 알고리즘 • 국소 다발 검색 • 모의정련 • 언덕 오르기 검색 • 유전 알고리즘

대항 검색	검색의 차단 • 알파베타 가지치기 • 전방 가지치기 • 최소최대 알고리즘

제약 만족 문제	국소검색 • 역추적검색 • 제약전파

게임이론	게임이론 • 공유지의 비극 • 내시균형 • 메커니즘 디자인 • 비협조게임 • 사회선택이론 • 역게임이론 • 제로섬게임 • 조정게임 • 죄수의 딜레마 • 치킨게임 • 팃포탯 • 협조게임

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 〈SQL(Structured Query Language)〉, 《네이버 지식백과》

[2] 〈OLAP(ON-line Analytical Processing)〉, 《네이버 지식백과》

[1]

[2]

위키원

이름공간

변수

보기

더 보기

검색