빅데이터

위키원
tuminjjang (토론 | 기여)님의 2018년 9월 5일 (수) 16:49 판 (* 김희욱 기자, [〈http://www.viva100.com/main/view.php?key=20170827010009688 러시아 '가상화폐로 햄버거를' 세계 최초 도입]〉, 《브릿지경제》, 2017-08-27)
이동: 둘러보기, 검색

정의

빅데이터(big data)란 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터 세트를 의미하며 [1] 그 데이터로부터 가치를 추출하고 결과를 분석하는 기술 [2] 이다.

빅 데이터는 과거에 비해 데이터의 양이 증폭했다는 점과 함께 종류도 다양해져서 사람들의 위치정보와 행동뿐만 아니라 SNS를 통해 개인의 의견까지 분석하고 예측할 수 있다. 규모가 방대한 만큼, 정치, 문화, 사회, 경제, 과학기술 등 많은 영역에서 인류와 사회에게 필요한 정보들을 제공할 수 있는 가능성을 보여주고 있으며 그 중요성이 부각되고 있다. 세계경제포럼은 2012년 떠오르는 10대 기술 가운데 그 첫 번째를 빅 데이터로 선정[3] 했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정 [4] 하는 등 빅 데이터에 전 세계는 주목하고 있다.

등장배경

컴퓨터인터넷, 스마트폰 등 모바일 기기 이용이 보편화되면서 사람들이 남긴 흔적(데이터)은 기하급수적으로 증가하는 중이다.

예를 들어 인터넷쇼핑에 대해 생각해보자. 과거에는 옷 가게에서 물건을 살 때만 데이터가 기록되었다. 그러나 인터넷쇼핑의 경우에는 구매하지 않아도 방문자의 기록이 데이터로 저장된다.

쇼핑뿐만 아니라 자료검색과 e-mail, 교육과 학습, 은행 증권과 같은 금융거래, 취미생활 등 다양한 활동들이 PC와 인터넷에서 이뤄지고 있다. 자체제작으로 만들어지는 UCC를 비롯한 동영상콘텐츠를 인터넷상에 업로드하고, 영상속의 정보들을 통해 정보를 얻는 것이 일반화 되었다.

또, 핸드폰과 SNS(Social Network Service)에서 생성되는 문자나 대화 등은 데이터의 속도가 증가할 뿐만 아니라, 질과 형태에서도 다른 양상을 보이고 있다. 특히 카페, 블로그나 SNS에서 유통되는 텍스트는 내용을 통해 글쓴이의 성향과 감정뿐만 아니라, 소통하는 상대방의 관계까지도 분석할 수 있다.

위의 예시들처럼 PC, 인터넷, 스마트폰 등 기기가 생활화 되면서 과거에 비해 축적할 수 있는 데이터의 범위와 양이 증가하게 되고, 이를 찾아볼 수 있는 수단 역시 발달되어 있다 보니 기존의 데이터에 개인의 평가를 비롯한 정보를 추가해 더 광범위한 데이터를 만들 수 있게 되었다.

특징

빅데이터의 특징은 크게 3V로 설명할 수 있다. 3V란, 데이터의 다양성(variety), 데이터의 속도(Velocity), 데이터의 크기(Volume)를 나타낸다.

데이터 다양성(Variety)은 다양한 형태의 데이터를 포함하는 것을 뜻한다. 정형 데이터뿐만 아니라 사진, 오디오, 비디오, 소셜미디어 데이터, 위치데이터, 로그 파일 등과 같은 비정형 데이터도 포함된다.[5]

데이터 속도(Velocity)는 데이터의 실시간 처리를 뜻한다. 이는 데이터가 생성되고, 저장되며, 시각화되는 과정이 얼마나 빠르게 이뤄져야 하는지에 대한 중요성을 나타낸다. [6]

데이터 크기(Volume)는 단순하게 저장되는 물리적 데이터양을 나타내며 빅데이터의 가장 기본적인 특징이다. [7] 썸네일l빅데이터의 특징

처리기술

빅데이터를 분석하고 활용하기 위해서 다양한 처리기법이 존재한다. 이 다양한 기법들을 크게 분석기술과 표현기술로 분류한다.

  • 분석기술

대부분의 빅 데이터 분석 기술과 방법들은, 기존 전산학과 통계학에서 사용하던 기계 학습, 데이터 마이닝, 패턴 인식, 자연 언어 처리 등이 해당된다.[8] 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목 받고 있다.[9]

  1. 텍스트 마이닝: 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술.[10]
  2. 오피니언 마이닝: 웹사이트와 소셜미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공 하는 기술.[11]
  3. 소셜 네트워크 분석: 수학의 그래프 이론을 이용하여 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성 등을 분석하고 시각화하는 측정 기법.[12]
  4. 군집 분석: 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법. [13]
  • 표현기술
  1. R: 오픈소스 프로그램으로, 통계/데이터 마이닝 및 그래프를 위한 프로그래밍 언어이다.[14] 이는 분석된 데이터를 시각적으로 표현한다.

활용

정치

2008년 미국 대통령 선거

2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 '유권자 맞춤형 선거 전략'을 전개했다. 이는 나이, 종교, 인종, 가구형태 등 기본적인 인적사항을 바탕으로 유권자들을 분류하고 더 나아가 구독중인 자지, 마시는 음료, 과거 투표여부까지 전화, 개별방문이나 소셜미디어 통해 정보를 수집하였다. 수집한 데이터는, 데이터베이스를 온라인 통합관리하는 ‘보트빌더(votebuilder.com)’ 시스템을 이용해 유권자를 분석해 예측 해나갔다. 이를 바탕으로 유권자 ‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 효과적인 선거를 치를 수 있었다.[15]

문화

머니볼 이론과 데이터 야구

머니볼 이론이란, 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다.[16] 실제로 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 낮은 구단 지원금에도 불구하고 최소비용으로 최대효과를 거둔 상황에서 유래되었다. 빌리 빈은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우며 팀을 변화시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏, 앨런 그린스펀과 함께 빌리 빈을 선정[17] 하는 등 머니볼 이론은 주목받았다. 최근 과학기술 및 카메라 기술의 발달을 통해 더 정교한 데이터 수집이 가능해졌으며, 야수의 움직임, 타구 방향, 투구의 궤적 및 투수의 그립까지 잡아낼 수 있게 되었다. 기존의 정형 데이터뿐만 아니라 비정형 데이터의 수집과 분석, 그리고 적절한 활용을 통해 최근 야구경기에서의 빅 데이터의 중요성은 더 커지고 있다.인용 오류: <ref> 태그를 닫는 </ref> 태그가 없습니다

문제점

빅데이터에 대한 큰 문제점은 사생활 침해다. 정보기술의 발달로 인해 많은 분야에서 개인의 데이터를 축적하게 되면서 빅데이터는 가공할 위력으로 다가오고 있다.

개인 신상정보 유출과 같이 의도하지 않았지만 드러나게 되는 개인의 사적인 정보가 기존에 비해 빠르게 확산되고, 본인조차도 차단할 수 있는 방법이 제공되고 있지 않다는 점은 스마트 시대에 심히 고민해봐야 할 문제다.

더불어 인터넷 사기 같은 문제도 소셜 커머스에서도 발생하고 있다. 한국소비자원에 따르면 2011년 12월 14일 기준으로 소셜 커머스 소비자 피해구제 접수 건수는 2010년 3건에서 2011년 8월까지 492건이 발생하여 무려 164배가 증가한 것으로 나타났다. 개인의 자발적인 참여를 기본으로 하는 소셜 네트워크 서비스의 특성상 본질적으로 소셜 커머스는 금융 사기를 미리 방지한다는 것이 쉽지 않다.[18] 빅데이터의 주 생산 매체인, 소셜 미디어안의 다양한 방면에서 신뢰성을 확보하는 것이 필요하다. [19]

이처럼 빅데이터의 홍수 속에서 편리함을 누리는 만큼, 정보가 악용되지 않도록 평가하고 사용할 필요성이 있다.

각주

  1. 네이버 국어사전〈[ https://ko.dict.naver.com/search.nhn?query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&kind=all '네이버 국어사전']〉
  2. John Gantz & David Reinsel, << Extracting Value from Chaos >>, IDC IVIEW , 2011년 6월
  3. Global Agenda Council on Emerging Technologies, << The top 10 emerging technologies for 2012 >>, World Economic Forum, 2012.Feb 15th
  4. "융합스마트시대 IT산업 주도를 위한 잰걸음" , <<지식경제부 보도자료>>, 2012년 4월 5일
  5. 국립중앙과학관〈[ https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 '빅데이터 특징']〉
  6. 국립중앙과학관〈[ https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 '빅데이터 특징']〉
  7. 국립중앙과학관〈[ https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 '빅데이터 특징']〉
  8. 위키백과-〈'분석기술'
  9. 조성우, 《빅데이터 시대의 기술》5-7쪽. KT종합기술원, 2011.10.5
  10. 네이버 지식백과〈'텍스트마이닝'
  11. 네이버 IT용어사전〈'오피니언 마이닝'
  12. 네이버 IT용어사전〈'소셜 네트워크, 분석'
  13. 네이버 IT용어사전〈'군집 분석'
  14. 국립중앙과학관〈'R'
  15. 위키백과[〈https://ko.wikipedia.org/wiki/빅_데이터#2008년_미국_대통령_선거 '빅데이터 활용사례 정치']〉
  16. 머니볼(Moneyball) 이론, "에듀윌 정보통신/오늘의 일반상식", 평생교육 No.1 에듀윌, 2012년 01월 11일.
  17. [<<Those Who Influence The Markets Most>>, The Wall Street Journal, November 10, 2003.]
  18. 김효선, <‘짝퉁천국’ 소셜 커머스, 소비자 피해 급증>, 《서울파이낸스》, 2011년 12월 15일.
  19. 네이버 지식백과[〈https://terms.naver.com/entry.nhn?docId=3331525&cid=57613&categoryId=57613 '빅데이터 플랫폼 전략']〉

참고자료

같이 보기