별.png별.png별.png

"빅데이터"의 두 판 사이의 차이

위키원
이동: 둘러보기, 검색
(* 김희욱 기자, [〈http://www.viva100.com/main/view.php?key=20170827010009688 러시아 '가상화폐로 햄버거를' 세계 최초 도입]〉, 《브릿지경제》, 2017-08-27)
잔글
 
(사용자 8명의 중간 판 42개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==정의==
+
[[파일:BigData_2267x1146_white.png|썸네일|500픽셀|'''빅데이터'''(big data)]]
'''빅데이터'''<!--빅 데이터-->(big data)란 기존 [[데이터]]에 비해 너무 방대해 이전 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터 세트를 의미하며 <ref>네이버 국어사전〈[ https://ko.dict.naver.com/search.nhn?query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&kind=all '네이버 국어사전']〉 </ref> 그 데이터로부터 가치를 추출하고 결과를 분석하는 기술 <ref> John Gantz & David Reinsel, << Extracting Value from Chaos >>, IDC IVIEW , 2011년 6월 </ref> 이다. 
 
  
데이터는 과거에 비해 데이터의 양이 증폭했다는 점과 함께 종류도 다양해져서 사람들의 위치정보와 행동뿐만 아니라 [[SNS]]를 통해 개인의 의견까지 분석하고 예측할 있다.
+
'''빅데이터'''(big data)<!--데이터-->란 생성된 양이 많고 생성 속도가 빠른 비정형 [[데이터]]를 말한다. 기존의 데이터는 일정한 형식에 맞게 정리하여 체계적으로 관리할 있었으나, [[소셜 네트워크 서비스]](SNS), [[자율주행 자동차]], 기타 각종 기계장치 등에서 생성된 방대한 양의 비정형 데이터는 새로운 접근방법을 필요로 하게 되었다. 빅데이터는 기존의 [[오라클 (데이터베이스)|오라클]](Oracle) 관계형 [[데이터베이스 관리 시스템]](RDBMS)으로는 분석이 어려워, 새로운 빅데이터 분석 도구가 필요하게 되었다. '빅데이타'가 아니라 '빅데이터'가 올바른 표기법이다.
규모가 방대한 만큼, 정치, 문화, 사회, 경제, 과학기술 많은 영역에서 인류와 사회에게 필요한 정보들을 제공할 수 있는 가능성을 보여주고 있으며 그 중요성이 부각되고 있다.
 
세계경제포럼은 2012년 떠오르는 10대 기술 가운데 그 첫 번째를 빅 데이터로 선정<ref> Global Agenda Council on Emerging Technologies, << The top 10 emerging technologies for 2012 >>, World Economic Forum, 2012.Feb 15th </ref> 했으며
 
대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정 <ref>"융합스마트시대 IT산업 주도를 위한 잰걸음" , <<지식경제부 보도자료>>, 2012년 4월 5일 </ref> 하는 등 빅 데이터에 전 세계는 주목하고 있다.
 
  
==등장배경==
+
== 개요 ==
[[컴퓨터]][[인터넷]], [[스마트폰]] 등 모바일 기기 이용이 보편화되면서 사람들이 남긴 흔적(데이터)은 기하급수적으로 증가하는 중이다.
+
빅데이터는 기존 [[데이터]]에 비해 양이 너무 방대해, 이전의 분석 방법이나 도구로 수집, 저장, 검색, 분석, 시각화하기 어려운 정형 또는 비정형 데이터를 의미한다.<ref>〈[https://ko.dict.naver.com/search.nhn?query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&kind=all 빅데이터]〉, 《네이버 국어사전》</ref> 빅데이터 기술은 빅데이터로부터 의미 있는 자료를 추출하고 결과를 분석하는 기술이다.<ref>John Gantz & David Reinsel, "[https://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf Extracting Value from Chaos]", ''IDC IVIEW'', IDC, 2011-06</ref>
  
예를 들어 인터넷쇼핑에 대해 생각해보자. 과거에는 옷 가게에서 물건을 살 때만 데이터가 기록되었다. 그러나 인터넷쇼핑의 경우에는 구매하지 않아도 방문자의 기록이 데이터로 저장된다.  
+
빅데이터는 기존의 [[오라클 (데이터베이스)|오라클]](Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, [[하둡]](Hadoop)이나 [[노에스큐엘]](NoSQL) 계열의 [[몽고디비]](MongoDB), [[에이치베이스]](HBase), [[카산드라]](Cassandra) 등을 사용하여 분석한다. 빅데이터 분석 솔루션에는 [[스플렁크]](Splunk) 등이 있다.
  
쇼핑뿐만 아니라 자료검색과 [[e-mail]], 교육과 학습, 은행 증권과 같은 금융거래, 취미생활 다양한 활동들이 [[PC]]와 인터넷에서 이뤄지고 있다.
+
빅데이터는 과거에 비해 데이터의 양이 폭발적으로 증가했다는 점과 함께 종류도 다양해져서 사람들의 위치정보와 행동뿐만 아니라 [[SNS]]를 통해 개인의 의견까지 분석하고 예측할 수 있다. 빅데이터는 규모가 방대한 만큼, 정치, 경제, 사회, 문화, 과학기술 많은 영역에서 인류와 사회에게 필요한 정보를 제공할 수 있는 가능성을 보여주고 있으며 그 중요성이 부각되고 있다. 세계경제포럼은 2012년 떠오르는 10대 기술 가운데 그 첫 번째를 빅데이터로 선정했으며,<ref>Global Agenda Council on Emerging Technologies, "[https://www.weforum.org/agenda/2012/02/the-2012-top-10-emerging-technologies/ The top 10 emerging technologies for 2012]", ''World Economic Forum'', 2012-02-15</ref> 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅데이터를 선정하는 등<ref>지식경제부 보도자료, 〈[http://www.kiet.re.kr/kiet_web/main.jsp?sub_num=40&state=view&idx=32035 융합·스마트시대 IT산업 주도를 위한 잰걸음]〉, 《산업연구원 홈페이지》, 지식경제부, 2012-04-05</ref> 빅데이터 기술에 전 세계가 주목하고 있다.
자체제작으로 만들어지는 [[UCC]]를 비롯한 동영상콘텐츠를 인터넷상에 업로드하고, 영상속의 정보들을 통해 정보를 얻는 것이 일반화 되었다.
 
  
또, 핸드폰과 SNS(Social Network Service)에서 생성되는 문자나 대화 등은 데이터의 속도가 증가할 뿐만 아니라, 질과 형태에서도 다른 양상을 보이고 있다. 특히 카페, 블로그나 SNS에서 유통되는 텍스트는 내용을 통해 글쓴이의 성향과 감정뿐만 아니라, 소통하는 상대방의 관계까지도 분석할 수 있다.
+
== 등장 배경 ==
  
위의 예시들처럼 PC, 인터넷, 스마트폰 등 기기가 생활화 되면서 과거에 비해 축적할 수 있는 데이터의 범위와 양이 증가하게 되고, 이를 찾아볼 수 있는 수단 역시 발달되어 있다 보니 기존의 데이터에 개인의 평가를 비롯한 정보를 추가해 더 광범위한 데이터를 만들 수 있게 되었다.  
+
[[컴퓨터]]와 [[인터넷]], [[스마트폰]] 모바일 기기 이용이 보편화되면서 사람들이 남긴 흔적 데이터는 기하급수적으로 증가하고 있다. 예를 들어 [[쇼핑]]의 경우, 과거에는 옷 가게에서 물건을 살 때만 데이터가 기록되었으나, 인터넷 쇼핑의 경우에는 구매하지 않고 클릭만 해도 방문자의 기록이 데이터로 저장된다. 쇼핑뿐 아니라 자료 검색과 [[이메일]], 교육과 학습, 은행·증권과 같은 금융거래, 취미생활 등 다양한 활동들이 [[PC]]와 [[인터넷]]에서 이루어지고 있다.
  
==특징==
+
사용자들이 직접 제작하는 [[UCC]]를 비롯한 동영상 콘텐츠를 인터넷에 업로드하고, 영상 속의 정보들을 통해 정보를 얻는 것이 일반화되고 있다. 또한 [[스마트폰]]과 [[SNS]]에서 생성되는 문자나 대화 등으로 인해, 데이터의 증가 속도가 더 빨라지고 있을 뿐 아니라, 데이터의 질과 형태에서도 예전과 다른 양상을 보이고 있다. 특히 블로그, 인터넷 카페, SNS 등에서 유통되는 텍스트는 내용을 통해 글쓴이의 성향과 감정뿐만 아니라, 소통하는 상대방과의 관계까지도 분석할 수 있다.
빅데이터의 특징은 크게 3V로 설명할 수 있다. 3V란, 데이터의 다양성(variety), 데이터의 속도(Velocity), 데이터의 크기(Volume)를 나타낸다.  
 
  
데이터 다양성(Variety)은 다양한 형태의 데이터를 포함하는 것을 뜻한다. 정형 데이터뿐만 아니라 사진, 오디오, 비디오, 소셜미디어 데이터, 위치데이터, 로그 파일 등과 같은 비정형 데이터도 포함된다.<ref> 국립중앙과학관〈[ https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 '빅데이터 특징']〉 </ref>
+
위의 예시들처럼 PC, 인터넷, 스마트폰 등 정보통신 기기가 생활화되면서 과거에 비해 축적할 수 있는 데이터의 범위와 양이 급격하게 증가하게 되고, 이를 찾아볼 수 있는 수단 역시 발달되면서, 기존의 데이터에 개인의 평가를 비롯한 다양한 정보를 추가해 더 광범위한 데이터를 만들 수 있게 되었다.
  
데이터 속도(Velocity)는 데이터의 실시간 처리를 뜻한다. 이는 데이터가 생성되고, 저장되며, 시각화되는 과정이 얼마나 빠르게 이뤄져야 하는지에 대한 중요성을 나타낸다. <ref> 국립중앙과학관〈[ https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 '빅데이터 특징']〉 </ref>
+
== 특징 ==
 +
[[파일:빅데이터그림.png|썸네일|300픽셀|'''빅데이터'''의 특징 - 3V]]
  
데이터 크기(Volume)는 단순하게 저장되는 물리적 데이터양을 나타내며 빅데이터의 가장 기본적인 특징이다.
+
빅데이터의 특징은 크게 '''3V'''(쓰리브이)로 설명할 수 있다. 3V란 데이터의 다양성(variety), 데이터의 생성 속도(velocity), 데이터의 양(volume)을 나타낸다.<ref name="국립중앙과학관">국립중앙과학관, 〈[https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 빅데이터의 속성 3V, 4V]〉, 《과학학습콘텐츠》</ref>
<ref> 국립중앙과학관〈[ https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 '빅데이터 특징']〉 </ref>
 
[[파일:빅데이터그림.png|300픽셀|썸네일l빅데이터의 특징]]
 
  
==처리기술==
+
* '''다양성'''(variety) : 빅데이터는 다양한 형태의 데이터를 포함한다. 정형 데이터뿐만 아니라, [[사진]], [[오디오]], [[비디오]], 소셜 미디어 데이터, 위치 데이터, 로그 파일 등과 같은 비정형 데이터가 빅데이터에 포함된다.
빅데이터를 분석하고 활용하기 위해서 다양한 처리기법이 존재한다. 이 다양한 기법들을 크게 분석기술과 표현기술로 분류한다.  
+
* '''속도'''(velocity) : 빅데이터는 데이터의 생성 속도가 매우 빠르다. 기존 데이터와 달리, 빅데이터는 새로 생성되고, 저장되며, 시각화되는 과정이 매우 빠르게 이루어진다.
 +
* '''양'''(volume) : 빅데이터는 저장되는 물리적 데이터 양이 매우 많다. 빅데이터의 가장 기본적인 특징이다.
  
*분석기술
+
== 처리 기술 ==
대부분의 빅 데이터 분석 기술과 방법들은, 기존 전산학과 통계학에서 사용하던 기계 학습, [[데이터 마이닝]], [[패턴 인식]], 자연 언어 처리 등이 해당된다.<ref> 위키백과-〈[https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0#%EB%B6%84%EC%84%9D_%EA%B8%B0%EB%B2%95 '분석기술']〉</ref>
 
소셜 미디어등 비정형 데이터의 증가로 인해 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목 받고 있다.<ref>조성우, 《빅데이터 시대의 기술》5-7쪽. KT종합기술원, 2011.10.5 </ref>
 
  
#[[텍스트 마이닝]]: 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술.<ref> 네이버 지식백과〈[https://terms.naver.com/entry.nhn?docId=3386330&cid=58370&categoryId=58370 '텍스트마이닝']〉 </ref>
+
빅데이터를 분석하고 활용하기 위해서 다양한 처리 기법이 존재한다. 이 다양한 기법들을 크게 분석기술과 표현기술로 분류한다.
#[[오피니언 마이닝]]: 웹사이트와 소셜미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공 하는 기술.<ref> 네이버 IT용어사전〈[https://terms.naver.com/entry.nhn?docId=2070923&cid=42346&categoryId=42346 '오피니언 마이닝']〉</ref>
 
#[[소셜 네트워크 분석]]: 수학의 그래프 이론을 이용하여 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성 등을 분석하고 시각화하는 측정 기법.<ref> 네이버 IT용어사전〈[https://terms.naver.com/entry.nhn?docId=2070877&cid=50376&categoryId=50376 '소셜 네트워크, 분석']〉 </ref>
 
#[[군집 분석]]: 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법. <ref> 네이버 IT용어사전〈[https://terms.naver.com/entry.nhn?docId=2070793&cid=50376&categoryId=50376 '군집 분석']〉</ref> 
 
  
*표현기술
+
=== 분석기술 ===
#[[R]]: 오픈소스 프로그램으로, 통계/데이터 마이닝 및 그래프를 위한 프로그래밍 언어이다.<ref>국립중앙과학관〈[https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1212 'R']〉 </ref> 이는 분석된 데이터를 시각적으로 표현한다.
+
빅데이터 분석을 위해 대부분 기존 [[전산학]]이나 [[통계학]]에서 사용하던 [[기계학습]], [[데이터 마이닝]], [[패턴 인식]], [[자연 언어 처리]] 기술 등을 사용한다.<ref name="위키백과">[https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0 빅 데이터]〉, 《위키백과》</ref> 소셜 미디어 등 비정형 데이터의 증가로 인해, [[텍스트 마이닝]], [[오피니언 마이닝]], 소셜 네트워크 분석, 군집 분석 등의 분석 기술이 주목을 받고 있다.<ref>조성우, 〈Big Data 시대의 기술〉, 중앙연구소, 2011-09-27</ref>
  
==활용==
+
* '''텍스트 마이닝'''(text mining) : 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여, 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술이다.<ref>국립중앙과학관, 〈[https://terms.naver.com/entry.nhn?docId=3386330&cid=58370&categoryId=58370 텍스트 마이닝]〉, 《네이버 지식백과》</ref>
 +
* '''오피니언 마이닝'''(opinion mining) : [[웹사이트]]와 소셜 미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공 하는 기술이다.<ref>한국정보통신기술협회, 〈[https://terms.naver.com/entry.nhn?docId=2070923&cid=42346&categoryId=42346 오피니언 마이닝]〉, 《IT용어사전》, 네이버 지식백과</ref>
 +
* '''소셜 네트워크 분석'''(SNA; social network analysis) : 수학의 그래프 이론을 이용하여 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성 등을 분석하고 시각화하는 측정 기법이다.<ref>한국정보통신기술협회, 〈[https://terms.naver.com/entry.nhn?docId=2070877&cid=50376&categoryId=50376 소셜 네트워크, 분석]〉, 《IT용어사전》, 네이버 지식백과</ref>
 +
* '''군집 분석'''(cluster analysis) : 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법이다.<ref>한국정보통신기술협회, 〈[https://terms.naver.com/entry.nhn?docId=2070793&cid=50376&categoryId=50376 군집분석]〉, 《IT용어사전》, 네이버 지식백과</ref>
  
===정치===
+
=== 표현기술 ===
====2008년 미국 대통령 선거====
+
* '''[[R]]''' : 알(R)은 통계/데이터 마이닝 및 그래프를 위한 [[오픈 소스]] 기반의 [[프로그래밍 언어]]이다.<ref>〈[https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1212 R]〉, 《과학학습콘텐츠》, 국립중앙과학관 </ref> R은 분석된 데이터를 시각적으로 표현한다.
  
2008년 미국 대통령 선거에서 버락 [[오바마]] 미국 대통령 후보는 '유권자 맞춤형 선거 전략'을 전개했다. 이는 나이, 종교, 인종, 가구형태 등 기본적인 인적사항을 바탕으로 유권자들을 분류하고 더 나아가 구독중인 자지, 마시는 음료, 과거 투표여부까지 전화, 개별방문이나 소셜미디어 통해 정보를 수집하였다. 수집한 데이터는, [[데이터베이스]]를 온라인 통합관리하는 ‘보트빌더(votebuilder.com)’ 시스템을 이용해 유권자를 분석해 예측 해나갔다. 이를 바탕으로 유권자 ‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 효과적인 선거를 치를 수 있었다.<ref>위키백과[〈https://ko.wikipedia.org/wiki/빅_데이터#2008년_미국_대통령_선거 '빅데이터 활용사례 정치']〉</ref>
+
== 활용 ==
  
===문화===
+
=== 정치 ===
  
====[[머니볼 이론]]과 데이터 야구====
+
; 2008년 미국 대통령 선거
  
머니볼 이론이란, 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다.<ref>머니볼(Moneyball) 이론, "에듀윌 정보통신/오늘의 일반상식", 평생교육 No.1 에듀윌, 2012년 01월 11일. </ref>
+
2008년 미국 대통령 선거에서 [[버락 오바마]](Barack Obama) 미국 대통령 후보는 '유권자 맞춤형 선거 전략'을 전개했다. 나이, 종교, 인종, 가구 형태 등 기본적인 인적사항을 바탕으로 유권자들을 분류하고, 더 나아가 구독 중인 잡지, 마시는 음료, 과거 투표 여부까지 전화나 개별 방문 또는 소셜 미디어를 통해 정보를 수집하였다. 수집한 데이터는 온라인으로 데이터베이스를 통합 관리하는 보트빌더(Votebuilder) 시스템을 이용해 유권자를 분석해 예측을 진행했다. 이를 바탕으로 '유권자 지도'를 작성한 뒤 '유권자 맞춤형 선거 전략'을 전개하는 등 오바마 캠프는 효과적인 선거를 치를 있었다.<ref name="위키백과"></ref>
실제로 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 낮은 구단 지원금에도 불구하고 최소비용으로 최대효과를 거둔 상황에서 유래되었다. [[빌리 빈]]은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우며 팀을 변화시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 [[워렌 버핏]], [[앨런 그린스펀]]과 함께 빌리 빈을 선정<ref>  [<<Those Who Influence The Markets Most>>, The Wall Street Journal, November 10, 2003.] </ref> 하는 등 머니볼 이론은 주목받았다. 최근 과학기술 및 카메라 기술의 발달을 통해 정교한 데이터 수집이 가능해졌으며, 야수의 움직임, 타구 방향, 투구의 궤적 및 투수의 그립까지 잡아낼 있게 되었다.
 
기존의 정형 데이터뿐만 아니라 비정형 데이터의 수집과 분석, 그리고 적절한 활용을 통해 최근 야구경기에서의 빅 데이터의 중요성은 더 커지고 있다.<ref>위키백과[〈https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0#MLB_(%EB%A9%94%EC%9D%B4%EC%A0%80_%EB%A6%AC%EA%B7%B8_%EB%B2%A0%EC%9D%B4%EC%8A%A4%EB%B3%BC)%EC%9D%98_%EB%A8%B8%EB%8B%88%EB%B3%BC_%EC%9D%B4%EB%A1%A0_%EB%B0%8F_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%95%BC%EA%B5%AC< '빅데이터 활용사례 문화']〉/ref>
 
  
===사회===
+
=== 경제 ===
  
====빅데이터를 활용한 심야버스====
+
; 자라의 성공 비결
  
심야시간의 심야 근로자의 교통수단 부재, 승차거부로 인한 불편, 교통비 부담 등으로
+
[[자라]](Zara)는 빅데이터 처리 기술을 이용해 성공한 브랜드 중 하나이다. 자라의 빅데이터 전략은 아래와 같다.
서울시는 심야시간에 대중교통의 편의증대를 위한 방안을 마련했다.
+
* 무재고 시스템 : 소매단위별로 정확한 수요변화 체크를 바탕으로 무재고 시스템을 실현했다.
서울시는 통신사업자 [[KT]]와 협력하여 저녁시간의 위치정보, 즉 지역데이터를 활용했다. 먼저 시 전체를 1km 단위로 구역을 나눈 뒤 사람들이 많이 몰려드는 장소와 요일, 이동경로들을 수집하고 분석해 심야버스의 노선을 정한 것이다.
+
* 수직적 통합 : 디자인부터 판매까지 수직적 업무 통합을 통해 데이터를 기반으로 분석한 신제품을 2주일이라는 매우 빠른 시일 안에 출시했다.
 +
* 실시간 분석 알고리즘 : 전 세계 매장의 판매 데이터를 실시간으로 분석하는 알고리즘을 개발해 활용했다.
 +
위와 같이 자라는 전 세계인이 자라를 방문하도록 데이터를 수집, 분석 및 활용하여 매출 증가의 효과를 얻었다.<ref>심뫼만이, 〈[https://blog.naver.com/kmba99/130151968117 자라(ZARA), SCA에서 빅 데이터의 길을 열다]〉, 《네이버 블로그》,  2012-11-17</ref>
  
====독감예방과 빅데이터====
+
; 빅데이터 경영
  
2008년 2월 [[구글]] 독감트렌드라는 웹사이트에서 사람들에게 전 세계의 독감유행을 알렸다.
+
방대한 규모의 데이터를 활용한 빅데이터 경영이 주목받으며, 데이터 품질을 높이는 동시에 데이터의 처리를 돕는 데이터 통합의 중요성이 떠오르고 있다. [[데이터 통합]](DI; Data Integration)은 데이터의 추출, 적재, 변환을 위한 [[ETL]] 솔루션이 핵심이다. ETL 솔루션을 활용하면 수많은 데이터를 일일이 기업 데이터 포맷으로 코딩하지 않아도, 데이터 품질을 제고할 수 있다. 이런 점에서 데이터 통합은 빅데이터 환경에 필수적인 데이터 분석 기술로 평가받고 있다.
정부보다 약 2주 빠르게 알려졌는데, 이것은 사람들의 검색어를 수집해 데이터가 되서 활용한 것이다. 구글은 감기와 관련된 단어와 클릭이 증가한 데이터를 분석한 뒤, 독감이 유행중임을 발견했다. 이를 활용해 독감환자의 지역과 확산정보를 제공하며 독감을 예방했다.
 
  
===경제 및 경영===
+
한편 [[비즈니스 인텔리전스]](BI)보다 발전된 빅데이터 분석 방법은 [[비즈니스 애널리틱스]](BA)인데, 고급분석 단계에 있는 BA는 BI를 기본적으로 포함하면서, 확률 분석, 통계 분석, 미래 예측 기능 등을 포함해 최적의 데이터 기반 의사결정을 가능하게 하는 것으로 평가된다.<ref name="위키백과"></ref>
  
====[[SPA]]브랜드, ZARA의 성공비결====
+
=== 사회 ===
  
최근 zara는 빅데이터 처리기술을 이용해 이를 성공한 브랜드 중 하나이다. 빅데이터를 이용한 전략은 아래와 같다.
+
; 빅데이터를 활용한 심야버스
#무재고 시스템: 소매단위 별 정확한 수요변화체크를 바탕으로 무재고 시스템을 실현했다.
 
#수직적 통합: 디자인부터 판매하기까지 통합을 통해 2주내에 데이터를 기반으로 분석한 신제품을 출시
 
#실시간분석 알고리즘: 전세계 매장 판매 데이터를 실시간 분석하는 [[알고리즘]]을 개발해 활용.
 
위 요인들로 zara는 전 세계인이 자라를 방문하도록 데이터를 수집, 분석 및 활용하여 매출 증가의 효과를 얻었다.
 
  
====빅데이터 경영====
+
심야 시간에 일하는 근로자는 교통수단의 부재, 택시 승차 거부, 할증 교통비 부담 등 어려움이 많다. [[서울특별시]]는 심야시간에 대중교통의 편의 증대를 위한 방안을 마련했다. 서울시는 통신사업자 [[KT]]와 협력하여 저녁 시간의 위치정보, 즉 지역 데이터를 활용했다. 먼저 서울시 전체를 1km 단위로 작게 구역을 나눈 뒤, 사람들이 많이 몰려드는 장소와 요일, 이동경로 데이터 등을 수집하고 분석해 심야버스의 노선을 정했다.<ref>스쿨잼, 〈[https://blog.naver.com/naverschool/220971755201 심야버스 노선을 정할 때 사용된 '빅데이터'가 뭐야?']〉, 《네이버 블로그》, 2017-03-31</ref>
  
방대한 규모의 데이터를 활용한 '빅데이터 경영'이 주목받으며, 데이터 품질을 높이는 동시에 데이터의 처리를 돕는 데이터 통합의 중요성이 떠오르고 있다.
+
; 빅데이터와 독감 예방
[[데이터 통합(DI)]]은 데이터의 추출, 적재, 변환을 위한 [[ETL]] 솔루션이 핵심이다. ETL 솔루션을 활용하면 수많은 데이터를 일일이 기업 데이터 포맷으로 코딩하지 않아도 데이터 품질을 제고할 수 있다는 점에서 DI는 빅데이터 환경에 필수적인 데이터 솔루션으로 평가받고 있다.
 
한편 [[ 비즈니스 인텔리전스(BI]])보다 발전된 빅데이터 분석 방법은 비즈니스 [[애널리틱스(BA)]]인데, 고급분석 단계에 있는 BA는 BI를 기본적으로 포함하면서 확률 분석, 통계분석, 미래 예측 기능 등을 포함해 최적의 데이터 기반 의사결정을 가능하게 하는 것으로 평가된다. <ref> 위키백과[〈https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0#%EA%B8%B0%EC%97%85_%EA%B2%BD%EC%98%81 '빅데이터 활용사례 경영]〉 </ref>
 
  
==문제점==
+
2008년 2월 [[구글]]은 독감 트렌드라는 웹사이트에서 사람들에게 전 세계의 독감 유행 현황을 알렸다. 구글의 이러한 시도는 정부 발표보다 약 2주일 정도 빠르게 알려졌는데, 이것은 사람들의 검색어를 수집해 빅데이터를 분석하고 활용한 것이다. 구글은 감기와 관련된 단어와 클릭이 증가한 데이터를 분석한 뒤, 독감이 유행 중임을 발견했다. 이를 활용해 독감환자의 지역과 확산정보를 제공함으로써 독감을 예방하는데 기여했다.
빅데이터에 대한 큰 문제점은 사생활 침해다. 정보기술의 발달로 인해 많은 분야에서 개인의 데이터를 축적하게 되면서 빅데이터는 가공할 위력으로 다가오고 있다.  
 
  
개인 신상정보 유출과 같이 의도하지 않았지만 드러나게 되는 개인의 사적인 정보가 기존에 비해 빠르게 확산되고, 본인조차도 차단할 수 있는 방법이 제공되고 있지 않다는 점은 스마트 시대에 심히 고민해봐야 할 문제다.
+
=== 문화 ===
  
더불어 인터넷 사기 같은 문제도 [[소셜 커머스]]에서도 발생하고 있다. 한국소비자원에 따르면 2011년 12월 14일 기준으로 소셜 커머스 소비자 피해구제 접수 건수는 2010년 3건에서 2011년 8월까지 492건이 발생하여 무려 164배가 증가한 것으로 나타났다. 개인의 자발적인 참여를 기본으로 하는 [[소셜 네트워크]] 서비스의 특성상 본질적으로 소셜 커머스는 [[금융]] 사기를 미리 방지한다는 것이 쉽지 않다.<ref>김효선, <‘짝퉁천국’ 소셜 커머스, 소비자 피해 급증>, 《서울파이낸스》, 2011년 12월 15일.</ref> 빅데이터의 주 생산 매체인, 소셜 미디어안의 다양한 방면에서 신뢰성을 확보하는 것이 필요하다. <ref>네이버 지식백과[〈https://terms.naver.com/entry.nhn?docId=3331525&cid=57613&categoryId=57613 '빅데이터 플랫폼 전략']〉 </ref>
+
; 머니볼 이론과 데이터 야구
  
이처럼 빅데이터의 홍수 속에서 편리함을 누리는 만큼, 정보가 악용되지 않도록 평가하고 사용할 필요성이 있다.
+
머니볼(money ball) 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 이론이다.<ref>pmg 지식엔진연구소, 〈[https://terms.naver.com/entry.nhn?docId=2412197&cid=43667&categoryId=43667 머니볼]〉, 《시사상식사전》, 네이버 지식백과</ref> 미국 프로야구 메이저 리그에서 오클랜드 어슬레틱스의 [[빌리 빈]](William Beane) 단장이 낮은 구단 지원금에도 불구하고 최소 비용으로 최대 효과를 거둔 일에서 유래되었다. 빌리 빈은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우며 팀을 변화시켰다. 미국 [[월스트리트 저널]]은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 [[워렌 버핏]](Warren Buffett), [[앨런 그린스펀]](Alan Greenspan)과 함께 빌리 빈을 선정하는 등 머니볼 이론은 큰 주목을 받았다.<ref>"Those Who Influence The Markets Most", ''The Wall Street Journal'', 2003-11-10</ref> 최근 과학기술 및 카메라 기술의 발달을 통해 더 정교한 데이터 수집이 가능해졌으며, 외야수의 움직임, 타구 방향, 투구의 궤적 및 투수의 그립까지 잡아낼 수 있게 되었다. 기존의 정형 데이터뿐만 아니라 비정형 데이터의 수집과 분석, 그리고 적절한 활용을 통해 최근 야구경기에서 빅데이터의 중요성은 더욱 커지고 있다.
 +
 
 +
== 관련 기업 ==
 +
=== 해외 기업 ===
 +
* '''[[휴렛 팩커드]]'''(Hewlett-Packard) : 휴렛 팩커드는 버티카와 오토노미를 결합하여 빅데이터 분석 시장에 진입했다. '버티카'는 휴렛 팩커드의 전략적인 솔루션으로써 집중적인 투자를 통해 빠르게 성장하고 있으며, 시장의 요구사항을 빠르게 접목하여 보다 시장 친화적인 분석 플랫폼으로 거듭나고 있다.<ref>유선희, 〈[http://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwjdmoyStrrqAhWEwosBHezNCbMQFjAAegQIAxAB&url=http%3A%2F%2Fgift.kisti.re.kr%2Fannounce%2Fanalysis-report%2F2014%2Fmiriran_14037.pdf&usg=AOvVaw1f8xjkWoJ97ut7_VGG3rEc 빅데이터 기반의 산업 시장 정보 분석]〉, 《한국과학기술정보연구원》, 2013-09-01 </ref>
 +
 
 +
* '''[[구글]]'''(Google): 구글의 구글 파일시스템(Google File System)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.<ref> swalloow, 〈[https://swalloow.github.io/map-reduce/ GFS, HDFS 그리고 MapReduce]〉, 《티스토리》, 2017-05-14 </ref> 일반 상용 하드웨어를 이용하여 대량의 서버를 연결하여 데이터에 대한 접근이 효율적이고 안정적이라는 특징이 있다. 구글 파일시스템은 크게 하나의 마스터 노드(master node)와 여러 개의 슬레이브 노드(slave node)로 구성되어 있다. 기능으로 보면 마스터(Master), 정크 서버(Chunk Server), 클라이언트(Client)로 이루어져 있다.
 +
# 마스터(master): 구글 파일 시스템 전체를 관리하고 통제하는 중앙 서버의 역할
 +
# 청크 서버(chunk server): 물리적인 서버, 실제 입출력을 처리
 +
# 클라이언트(client): 파일 입출력을 요청하는 클라이언트 어플리케이션 
 +
 
 +
* '''[[맵리듀스]]'''(MapReduce) : 2004년 구글의 인공지능(AI) 연구책임자인 제프 딘(Jeff Dean)이 작성한 논문을 통해 소개되었다. 논문의 제목은 ‘맵리듀스: 심플리파이드 데이터 프로세싱 온 라지 클러스터(MapReduce: Simplified Data Processing on Large Clusters)’ 즉, 맵리듀스는 말 그대로 대용량 분산 클러스터에서 데이터를 간단히 처리하는 방법이다. 구글은 맵리듀스를 URL 접근빈도, 웹링크 그래프(web-link graph)를 계산하는데 사용했다.
 +
 
 +
* '''[[빅쿼리]]'''(BigQuery) : 구글에서 제공하는 페타바이트급 규모의 저비용 완전 관리형 분석 데이터 웨어하우스이다. 빅쿼리는 이용자가 업로드한 거대한 양의 데이터 분석 처리를 지원한다. 관리할 인프라가 없고, 데이터베이스 관리자가 필요 없으므로 데이터 분석에 집중하여 의미 있는 정보를 찾을 수 있다는 장점이 있다.
 +
 
 +
* '''[[오라클]]'''(Oracle) : 오라클 사가 개발한 오라클 빅데이터 어플라이언스(Oracle Big Data Appliance)는 [[하둡]](Hadoop)을 탑재한 전문 어플라이언스 솔루션으로 빅데이터의 수집, 저장, 처리를 담당한다.<ref>〈[https://www.kdata.or.kr/info/info_04_view.html?field=&keyword=&type=techreport&page=22&dbnum=183180&mode=detail&type=techreport Oracle Big Data: 저장 및 처리 영역]〉, 《한국데이터산업진흥원》</ref> 하둡, [[스파크]](Spark), [[노에스큐엘]](NoSQL) 등과 같은 오픈소스 툴을 활용하고, 클릭(Qlik), 태블로(Tableau), 사스(SAS) 및 기타 분석 환경에서 빅데이터 워크로드를 실행하도록 설계되었다. 하드웨어와 소프트웨어 그리고 네트웍이 최고의 성능 을 발휘할 수 있도록 사전 구성된 어플라이언스 제품으로서 특히 네트웍은 인피니밴드(Infiniband)로 최적 연결되어 있어 하둡의 가장 큰 문제점인 네트웍 병목현상을 해결하고 데이터 대역폭 한계를 극복하였다.
 +
 
 +
*'''[[사스]]'''(SAS) : 사스 사가 개발한 하이 퍼포먼스 애널리틱스(High Performance Analytics)는 인-메모리 분석과 인-데이터분석, 그리드컴퓨팅 등의 기술을 활용해 분석 속도를 극대화하고, 이를 통해 복잡한 분석 프로세스를 다양하게 시도해 볼 수 있는 플랫폼이다.<ref>SAS 공식 홈페이지 - https://www.sas.com/en_us/home.html</ref> 분석 워크로드 처리를 통합하고, 전체 분석 수명주기를 중앙에서 관리하는 병렬 처리로 효율성을 높였다.
 +
 
 +
* '''[[델이엠씨]]'''(Dell EMC) : 빅데이터를 위한 저장 솔루션으로 델 이엠씨는 ‘아트모스’ 솔루션을 내세웠다. 델 이엠씨 아이실론 스토리지는 모듈 방식의 구조와 자동화된 기능으로 대량의 데이터를 빠르고 쉽게 처리할 수 있어 용량과 성능을 유연하게 확장할 수 있다. 이는 전체 컴퓨팅 구조를 단순화하고 효율적으로 구성할 수 있게 해준다. 아이실론의 ‘오토 밸런스(Auto-balance) 기능’ 은 노드 추가로 각 노드 마다 자료의 양이 다를 경우, 데이터를 자동적으로 전체 노드에 균등 분산하는 기술이다. 만약 새로운 노드가 클러스터에 추가되면, 이 기능이 자동적으로 클러스터 내 노드들의 데이터를 균형적으로 재배치한다. 이는 스토리지 증설시 발생하는 비용과 복잡성, 위험을 감소시키며, 데이터 처리의 병목 현상을 방지해 스토리지 성능 향상과 효율을 극대화한다. 또 장애 시간을 없애 항상 최적의 성능을 발휘하도록 한다. 델 이엠씨 아트모스 클라우드 아키텍쳐 솔루션들은 아트모스 퍼포즈 빌트(Purpose-built) 하드웨어 어플라이언스, 아트모스 버추얼 에디션(Virtual Edition), 아트모스 지오드라이브(GeoDrive), 아트모스 소프트웨어 개발 키트(SDK), 아트모스 클라우드 딜리버리 플랫폼(Atmos Cloud Delivery Platform)등으로 구성돼 있다.<ref> 백지영 기자, 〈[http://m.ddaily.co.kr/m/m_article/?no=84519 빅데이터, “똑똑하게 저장하자”… 과거와 달라진 스토리지의 역할]〉, 《디지털데일리》, 2011-11-15  </ref>
 +
 
 +
=== 국내 기업 ===
 +
*'''[[㈜케이티넥스알]]''' : ㈜케이티넥스알 사가 개발한 엔답(NDAP)은 데이터 증가에 따른 비용 발생과 기술 병목 증상을 해결하는 솔루션이다.<ref>석대건 기자, 〈[http://www.digitaltoday.co.kr/news/articleView.html?idxno=210584 KT넥스알 "빅데이터 플랫폼 '콘스탄틴'으로 시장 잡겠다"]〉, 《디지털투데이》, 2019-05-21 </ref> 일정 시간 간격으로 데이터를 모아 일괄 처리하는 방식으로 작동하며, 데이터베이스 구축 언어인 [[에스큐엘]](SQL) 처리를 지원하는 ‘아파치 하이브(Apache Hive)’에 고속 빅데이터 처리 엔진인 프레스토(Presto) 엔진을 추가해 데이터 처리 속도를 높였다. 여기에 기업이 자사 아이티(IT) 환경에 맞게 정해진 시간과 규칙을 지정하는 ‘워크 플로우(Workflow)’ 기능도 제공한다.
 +
 
 +
*'''[[㈜다음소프트]]'''(Daumsoft) : 2000년부터 빅데이터 자료를 수집하고 분석해 인사이트를 도출해 내는 국내 최초이자 최대 빅데이터 전문 기업이다. 대표적으로 썸트렌드(구 소셜메트릭스)는 트위터, 블로그, 인스타그램, 뉴스, 커뮤니티 등 소셜 빅데이터를 분석해 주는 빅데이터 분석 서비스로, 현재 범용으로 사용 가능한 썸트렌드 비즈(Sometrend Biz), 기업 맞춤형 썸트렌드 프로(Sometrend Pro), 리뷰 데이터 분석 서비스 썸트렌드 리뷰플러스(Sometrend Review+), 데이터 분석 서비스 썸트렌드 데이터플러스(Sometrend Data+), B2C 빅데이터 분석 플랫폼 '썸트렌드' 등의 세부 서비스가 있다.<ref> 다음소프트 위키백과 - https://ko.wikipedia.org/wiki/%EB%8B%A4%EC%9D%8C%EC%86%8C%ED%94%84%ED%8A%B8L </ref>
 +
 
 +
*'''[[㈜사이람]]''' : 2001년, 사이람은 소셜 네트워크 분석(Social Network Analysis) 소프트웨어인 [[넷마이너]](NetMiner)를 출시했다. 특징으로는 150개의 최신 소셜 네트워크 분석 모듈을 탑재하고 있으며, 이 외에도 통계 분석 및 [[데이터마이닝]] 등의 기능을 포함하는 통합적 분석을 지원하고 있다. 또한 연설문, 논문 초록, 소셜미디어 게시글, 신문 기사 등과 같은 비정형 텍스트 데이터를 입력하여 주요 단어를 추출하고 단어 간 의미망 분석도 가능하다.이는 넷마이너 외의 별도의 소프트웨어를 이용하지 않아도 됨을 의미할 뿐만 아니라, 서로 다른 분석 방법을 넘나드는 융복합 분석이 발생할 수 있다는 것을 의미한다. 그리고 최대 1,000,000개의 개체와 10,000,000개의 관계 데이터에 대한 분석이 가능하여, 다양한 형태의 소셜 빅데이터 처리 및 분석이 가능함을 알 수 있다.<ref>〈[http://www.cyram.com/product/product_01.jsp 넷마이너]〉, 《사이람》 </ref>
 +
 
 +
*'''[[㈜그루터]]''' : ㈜그루터가 개발한 아차피 타조(Apache Tajo)(Apache Tajo)는 [[아파치]] 하둡 기반의 빅데이터 웨어하우스 솔루션으로 에스큐엘 온 하둡(Sql on Hadoop) 기술로 분류된다. 링크드인, 에스케이텔레콤 등, 국내외의 개발자와 함께 그루터가 개발을 리드하면서 발전시켜 나가는 아파치 재단의 오픈소스이다. 기존 시스템과 통합을 하거나 이를 대체할 수 있도록 표준 에스큐엘을 지원한다. 또한 [[중앙처리장치]](CPU)와 메모리를 적절히 활용하여 높은 처리 성능을 보장한다. 타조는 기존 하둡 빅데이터 처리엔진인 하이브(Hive)보다 10배에서 100배까지 빠르게 데이터를 처리할 수 있는 특징을 가지고 있다. 타조와 같은 인터렉티브 분석(IA) 기술과 하둡 생태계 기술들을 최적화할 경우, 관계형 데이터베이스에서 제품군에서 제공하는 뛰어난 성능의 상용 데이터웨어하우스(DW) 제품들을 대체할 수 있다.<ref>류프리, 〈[https://ryufree.tistory.com/224, 그루터의 타조]〉, 《티스토리》 , 2017-08-04 </ref>
 +
 
 +
*'''[[㈜솔트룩스]]''' : 지난 20년간 [[인공지능]](AI)과 빅데이터 기술 융합을 통한 혁신 플랫폼과 지능형 서비스를 제공해온 국내 인공지능, 데이터 과학 분야를 대표하는 기업이다. 자사의 빅데이터 분석 플랫폼과 자연언어처리 엔진 엘이에이(LEA)를 빅데이터 오픈 소스 프레임워크들과 융합, 최적화 함으로 탁월한 공통 분석 플랫폼을 구현한다. 빅오(BigO) 공통 플랫폼은 20년간 축적된 솔트룩스의 강력한 인공지능 및 기계학습 기반 상용 분석 엔진들과 경제적이며 확장성이 큰 빅데이터 프레임워크들을 연계 통합함으로 탁월한 안정성과 가용성뿐 아니라 강력하고 차별화된 기능과 분석 품질을 제공한다. 빅오 공통 플랫폼은 [[브이랜]](YARN)을 포함한 하둡2(HADOOP-2)뿐 아니라 인메모리 맵리듀스 엔진인 스파크, 실시간 스트림 데이터 처리를 위한 스톰(Storm)과 유니마(Unima) 프레임워크를 디스커버리, 블루볼트(Bluebolt) 및 솔트룩스 스톰 등과 통합 구성한다. 또한 초대용량, 실시간 데이터의 수집, 저장, 검색과 병렬/분산 분석 및 시각화의 모든 기능을 단 하나의 플랫폼에서 구현한다.<ref>〈[http://www.saltlux.com/bigdata/bigO.do 빅오(BigO) 플랫폼]〉, 《솔트룩스》 </ref>
 +
 
 +
== 문제점 ==
 +
 
 +
빅데이터의 가장 큰 문제점은 개인의 사생활 침해이다. 정보기술의 발달로 인해 많은 분야에서 개인의 데이터를 축적하게 되면서 빅데이터는 가공할 위력으로 다가오고 있다. 개인 신상정보가 유출되면, 비록 본인은 의도하지 않았지만 자신도 모르게 개인의 사적 정보가 불특정 다수에게 공개되며, 기존에 비해 빠른 속도로 확산되고, 본인조차도 해당 정보를 차단할 수 없는 문제가 있다. 개인정보 유출 문제는 스마트 시대에 심각하게 고민해야 할 가장 중요한 문제이다.
 +
 
 +
더불어 인터넷 사기 같은 문제도 [[소셜 커머스]]에서 발생하고 있다. [[한국소비자원]]에 따르면 소셜 커머스 소비자 피해구제 접수 건수는 2010년 3건에서 2011년 8월까지 492건이 발생하여 무려 164배가 증가한 것으로 나타났다. 개인의 자발적인 참여를 기본으로 하는 [[소셜 네트워크]] 서비스의 특성상 본질적으로 소셜 커머스는 금융 사기를 미리 방지하기가 쉽지 않다.<ref>김효선 기자, 〈[http://www.seoulfn.com/news/articleView.html?idxno=121173 '짝퉁 천국' 소셜커머스, 소비자 피해 급증]〉, 《서울파이낸스》, 2011-12-15</ref> 빅데이터의 주 생산 매체인 소셜 미디어 안에서 다양한 방면의 신뢰성을 확보하는 것이 필요하다.<ref>한국전자통신연구원(ETRI), 〈[https://terms.naver.com/entry.nhn?docId=3331525&cid=57613&categoryId=57613 건강한 빅데이터 생산을 위한 환경 조성]〉, 《빅데이터 플랫폼 전략》, 네이버 지식백과</ref> 이처럼 빅데이터의 홍수 속에서 편리함도 누릴 수 있지만, 개인정보가 유출되어 악용되지 않도록 유의하여 사용할 필요성이 있다.
  
 
{{각주}}
 
{{각주}}
  
==참고자료==
+
== 참고자료 ==
* 네이버 지식백과,〈[https://terms.naver.com/entry.nhn?docId=1691554&cid=42171&categoryId=42183 '빅데이터']〉, 《네이버 지식백과》
+
* 〈[https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0 데이터]〉, 《위키백과》
*위키백과,〈[https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0#MLB_(%EB%A9%94%EC%9D%B4%EC%A0%80_%EB%A6%AC%EA%B7%B8_%EB%B2%A0%EC%9D%B4%EC%8A%A4%EB%B3%BC)%EC%9D%98_%EB%A8%B8%EB%8B%88%EB%B3%BC_%EC%9D%B4%EB%A1%A0_%EB%B0%8F_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%95%BC%EA%B5%AC 'MLB (메이저 리그 베이스볼)의 머니볼 이론 및 데이터 야구']〉,《위키백과》
+
* 국립중앙과학관, 〈[https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=DOM_000000101001013000&subject_sid=1202 빅데이터의 속성 3V, 4V]〉, 《과학학습콘텐츠》
*스쿨잼, 〈[https://blog.naver.com/naverschool/220971755201 '심야버스 노선을 정할 때 사용된 '빅데이터'가 뭐야?']〉, 《개인블로그》, 2017.3.31
+
* 정용찬, 〈[https://terms.naver.com/entry.nhn?docId=1691554&cid=42171&categoryId=42183 빅데이터 정의]〉, 《빅데이터》, 커뮤니케이션북스, 2013-02-25
*코스모스 코리아,〈[https://blog.naver.com/naverschool/220971755201 '구글독감 예측시스템과 빅데이터']〉, 《개인블로그》, 2017.7.8
+
* 한국전자통신연구원(ETRI), 〈[https://terms.naver.com/entry.nhn?docId=3331525&cid=57613&categoryId=57613 건강한 빅데이터 생산을 위한 환경 조성]〉, 《빅데이터 플랫폼 전략》, 네이버 지식백과
*심뫼만이, 〈[https://blog.naver.com/kmba99/130151968117) '자라(ZARA), SCA에서 빅 데이터의 길을 열다']〉, 《개인블로그》, 2012.11.17
 
  
 
== 같이 보기 ==
 
== 같이 보기 ==
111번째 줄: 130번째 줄:
 
* [[데이터베이스 관리 시스템]](DBMS)
 
* [[데이터베이스 관리 시스템]](DBMS)
  
[[분류:데이터베이스]]
+
{{4차 산업혁명|좋은글}}
 +
{{데이터}}

2022년 6월 5일 (일) 02:56 기준 최신판

빅데이터(big data)

빅데이터(big data)란 생성된 양이 많고 생성 속도가 빠른 비정형 데이터를 말한다. 기존의 데이터는 일정한 형식에 맞게 정리하여 체계적으로 관리할 수 있었으나, 소셜 네트워크 서비스(SNS), 자율주행 자동차, 기타 각종 기계장치 등에서 생성된 방대한 양의 비정형 데이터는 새로운 접근방법을 필요로 하게 되었다. 빅데이터는 기존의 오라클(Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, 새로운 빅데이터 분석 도구가 필요하게 되었다. '빅데이타'가 아니라 '빅데이터'가 올바른 표기법이다.

개요[편집]

빅데이터는 기존 데이터에 비해 양이 너무 방대해, 이전의 분석 방법이나 도구로 수집, 저장, 검색, 분석, 시각화하기 어려운 정형 또는 비정형 데이터를 의미한다.[1] 빅데이터 기술은 빅데이터로부터 의미 있는 자료를 추출하고 결과를 분석하는 기술이다.[2]

빅데이터는 기존의 오라클(Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, 하둡(Hadoop)이나 노에스큐엘(NoSQL) 계열의 몽고디비(MongoDB), 에이치베이스(HBase), 카산드라(Cassandra) 등을 사용하여 분석한다. 빅데이터 분석 솔루션에는 스플렁크(Splunk) 등이 있다.

빅데이터는 과거에 비해 데이터의 양이 폭발적으로 증가했다는 점과 함께 종류도 다양해져서 사람들의 위치정보와 행동뿐만 아니라 SNS를 통해 개인의 의견까지 분석하고 예측할 수 있다. 빅데이터는 규모가 방대한 만큼, 정치, 경제, 사회, 문화, 과학기술 등 많은 영역에서 인류와 사회에게 필요한 정보를 제공할 수 있는 가능성을 보여주고 있으며 그 중요성이 부각되고 있다. 세계경제포럼은 2012년 떠오르는 10대 기술 가운데 그 첫 번째를 빅데이터로 선정했으며,[3] 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅데이터를 선정하는 등[4] 빅데이터 기술에 전 세계가 주목하고 있다.

등장 배경[편집]

컴퓨터인터넷, 스마트폰 등 모바일 기기 이용이 보편화되면서 사람들이 남긴 흔적 데이터는 기하급수적으로 증가하고 있다. 예를 들어 쇼핑의 경우, 과거에는 옷 가게에서 물건을 살 때만 데이터가 기록되었으나, 인터넷 쇼핑의 경우에는 구매하지 않고 클릭만 해도 방문자의 기록이 데이터로 저장된다. 쇼핑뿐 아니라 자료 검색과 이메일, 교육과 학습, 은행·증권과 같은 금융거래, 취미생활 등 다양한 활동들이 PC인터넷에서 이루어지고 있다.

사용자들이 직접 제작하는 UCC를 비롯한 동영상 콘텐츠를 인터넷에 업로드하고, 영상 속의 정보들을 통해 정보를 얻는 것이 일반화되고 있다. 또한 스마트폰SNS에서 생성되는 문자나 대화 등으로 인해, 데이터의 증가 속도가 더 빨라지고 있을 뿐 아니라, 데이터의 질과 형태에서도 예전과 다른 양상을 보이고 있다. 특히 블로그, 인터넷 카페, SNS 등에서 유통되는 텍스트는 내용을 통해 글쓴이의 성향과 감정뿐만 아니라, 소통하는 상대방과의 관계까지도 분석할 수 있다.

위의 예시들처럼 PC, 인터넷, 스마트폰 등 정보통신 기기가 생활화되면서 과거에 비해 축적할 수 있는 데이터의 범위와 양이 급격하게 증가하게 되고, 이를 찾아볼 수 있는 수단 역시 발달되면서, 기존의 데이터에 개인의 평가를 비롯한 다양한 정보를 추가해 더 광범위한 데이터를 만들 수 있게 되었다.

특징[편집]

빅데이터의 특징 - 3V

빅데이터의 특징은 크게 3V(쓰리브이)로 설명할 수 있다. 3V란 데이터의 다양성(variety), 데이터의 생성 속도(velocity), 데이터의 양(volume)을 나타낸다.[5]

  • 다양성(variety) : 빅데이터는 다양한 형태의 데이터를 포함한다. 정형 데이터뿐만 아니라, 사진, 오디오, 비디오, 소셜 미디어 데이터, 위치 데이터, 로그 파일 등과 같은 비정형 데이터가 빅데이터에 포함된다.
  • 속도(velocity) : 빅데이터는 데이터의 생성 속도가 매우 빠르다. 기존 데이터와 달리, 빅데이터는 새로 생성되고, 저장되며, 시각화되는 과정이 매우 빠르게 이루어진다.
  • (volume) : 빅데이터는 저장되는 물리적 데이터 양이 매우 많다. 빅데이터의 가장 기본적인 특징이다.

처리 기술[편집]

빅데이터를 분석하고 활용하기 위해서 다양한 처리 기법이 존재한다. 이 다양한 기법들을 크게 분석기술과 표현기술로 분류한다.

분석기술[편집]

빅데이터 분석을 위해 대부분 기존 전산학이나 통계학에서 사용하던 기계학습, 데이터 마이닝, 패턴 인식, 자연 언어 처리 기술 등을 사용한다.[6] 소셜 미디어 등 비정형 데이터의 증가로 인해, 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등의 분석 기술이 주목을 받고 있다.[7]

  • 텍스트 마이닝(text mining) : 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여, 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술이다.[8]
  • 오피니언 마이닝(opinion mining) : 웹사이트와 소셜 미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공 하는 기술이다.[9]
  • 소셜 네트워크 분석(SNA; social network analysis) : 수학의 그래프 이론을 이용하여 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성 등을 분석하고 시각화하는 측정 기법이다.[10]
  • 군집 분석(cluster analysis) : 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법이다.[11]

표현기술[편집]

활용[편집]

정치[편집]

2008년 미국 대통령 선거

2008년 미국 대통령 선거에서 버락 오바마(Barack Obama) 미국 대통령 후보는 '유권자 맞춤형 선거 전략'을 전개했다. 나이, 종교, 인종, 가구 형태 등 기본적인 인적사항을 바탕으로 유권자들을 분류하고, 더 나아가 구독 중인 잡지, 마시는 음료, 과거 투표 여부까지 전화나 개별 방문 또는 소셜 미디어를 통해 정보를 수집하였다. 수집한 데이터는 온라인으로 데이터베이스를 통합 관리하는 보트빌더(Votebuilder) 시스템을 이용해 유권자를 분석해 예측을 진행했다. 이를 바탕으로 '유권자 지도'를 작성한 뒤 '유권자 맞춤형 선거 전략'을 전개하는 등 오바마 캠프는 효과적인 선거를 치를 수 있었다.[6]

경제[편집]

자라의 성공 비결

자라(Zara)는 빅데이터 처리 기술을 이용해 성공한 브랜드 중 하나이다. 자라의 빅데이터 전략은 아래와 같다.

  • 무재고 시스템 : 소매단위별로 정확한 수요변화 체크를 바탕으로 무재고 시스템을 실현했다.
  • 수직적 통합 : 디자인부터 판매까지 수직적 업무 통합을 통해 데이터를 기반으로 분석한 신제품을 2주일이라는 매우 빠른 시일 안에 출시했다.
  • 실시간 분석 알고리즘 : 전 세계 매장의 판매 데이터를 실시간으로 분석하는 알고리즘을 개발해 활용했다.

위와 같이 자라는 전 세계인이 자라를 방문하도록 데이터를 수집, 분석 및 활용하여 매출 증가의 효과를 얻었다.[13]

빅데이터 경영

방대한 규모의 데이터를 활용한 빅데이터 경영이 주목받으며, 데이터 품질을 높이는 동시에 데이터의 처리를 돕는 데이터 통합의 중요성이 떠오르고 있다. 데이터 통합(DI; Data Integration)은 데이터의 추출, 적재, 변환을 위한 ETL 솔루션이 핵심이다. ETL 솔루션을 활용하면 수많은 데이터를 일일이 기업 데이터 포맷으로 코딩하지 않아도, 데이터 품질을 제고할 수 있다. 이런 점에서 데이터 통합은 빅데이터 환경에 필수적인 데이터 분석 기술로 평가받고 있다.

한편 비즈니스 인텔리전스(BI)보다 발전된 빅데이터 분석 방법은 비즈니스 애널리틱스(BA)인데, 고급분석 단계에 있는 BA는 BI를 기본적으로 포함하면서, 확률 분석, 통계 분석, 미래 예측 기능 등을 포함해 최적의 데이터 기반 의사결정을 가능하게 하는 것으로 평가된다.[6]

사회[편집]

빅데이터를 활용한 심야버스

심야 시간에 일하는 근로자는 교통수단의 부재, 택시 승차 거부, 할증 교통비 부담 등 어려움이 많다. 서울특별시는 심야시간에 대중교통의 편의 증대를 위한 방안을 마련했다. 서울시는 통신사업자 KT와 협력하여 저녁 시간의 위치정보, 즉 지역 데이터를 활용했다. 먼저 서울시 전체를 1km 단위로 작게 구역을 나눈 뒤, 사람들이 많이 몰려드는 장소와 요일, 이동경로 데이터 등을 수집하고 분석해 심야버스의 노선을 정했다.[14]

빅데이터와 독감 예방

2008년 2월 구글은 독감 트렌드라는 웹사이트에서 사람들에게 전 세계의 독감 유행 현황을 알렸다. 구글의 이러한 시도는 정부 발표보다 약 2주일 정도 빠르게 알려졌는데, 이것은 사람들의 검색어를 수집해 빅데이터를 분석하고 활용한 것이다. 구글은 감기와 관련된 단어와 클릭이 증가한 데이터를 분석한 뒤, 독감이 유행 중임을 발견했다. 이를 활용해 독감환자의 지역과 확산정보를 제공함으로써 독감을 예방하는데 기여했다.

문화[편집]

머니볼 이론과 데이터 야구

머니볼(money ball) 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 이론이다.[15] 미국 프로야구 메이저 리그에서 오클랜드 어슬레틱스의 빌리 빈(William Beane) 단장이 낮은 구단 지원금에도 불구하고 최소 비용으로 최대 효과를 거둔 일에서 유래되었다. 빌리 빈은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우며 팀을 변화시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏(Warren Buffett), 앨런 그린스펀(Alan Greenspan)과 함께 빌리 빈을 선정하는 등 머니볼 이론은 큰 주목을 받았다.[16] 최근 과학기술 및 카메라 기술의 발달을 통해 더 정교한 데이터 수집이 가능해졌으며, 외야수의 움직임, 타구 방향, 투구의 궤적 및 투수의 그립까지 잡아낼 수 있게 되었다. 기존의 정형 데이터뿐만 아니라 비정형 데이터의 수집과 분석, 그리고 적절한 활용을 통해 최근 야구경기에서 빅데이터의 중요성은 더욱 커지고 있다.

관련 기업[편집]

해외 기업[편집]

  • 휴렛 팩커드(Hewlett-Packard) : 휴렛 팩커드는 버티카와 오토노미를 결합하여 빅데이터 분석 시장에 진입했다. '버티카'는 휴렛 팩커드의 전략적인 솔루션으로써 집중적인 투자를 통해 빠르게 성장하고 있으며, 시장의 요구사항을 빠르게 접목하여 보다 시장 친화적인 분석 플랫폼으로 거듭나고 있다.[17]
  • 구글(Google): 구글의 구글 파일시스템(Google File System)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.[18] 일반 상용 하드웨어를 이용하여 대량의 서버를 연결하여 데이터에 대한 접근이 효율적이고 안정적이라는 특징이 있다. 구글 파일시스템은 크게 하나의 마스터 노드(master node)와 여러 개의 슬레이브 노드(slave node)로 구성되어 있다. 기능으로 보면 마스터(Master), 정크 서버(Chunk Server), 클라이언트(Client)로 이루어져 있다.
  1. 마스터(master): 구글 파일 시스템 전체를 관리하고 통제하는 중앙 서버의 역할
  2. 청크 서버(chunk server): 물리적인 서버, 실제 입출력을 처리
  3. 클라이언트(client): 파일 입출력을 요청하는 클라이언트 어플리케이션
  • 맵리듀스(MapReduce) : 2004년 구글의 인공지능(AI) 연구책임자인 제프 딘(Jeff Dean)이 작성한 논문을 통해 소개되었다. 논문의 제목은 ‘맵리듀스: 심플리파이드 데이터 프로세싱 온 라지 클러스터(MapReduce: Simplified Data Processing on Large Clusters)’ 즉, 맵리듀스는 말 그대로 대용량 분산 클러스터에서 데이터를 간단히 처리하는 방법이다. 구글은 맵리듀스를 URL 접근빈도, 웹링크 그래프(web-link graph)를 계산하는데 사용했다.
  • 빅쿼리(BigQuery) : 구글에서 제공하는 페타바이트급 규모의 저비용 완전 관리형 분석 데이터 웨어하우스이다. 빅쿼리는 이용자가 업로드한 거대한 양의 데이터 분석 처리를 지원한다. 관리할 인프라가 없고, 데이터베이스 관리자가 필요 없으므로 데이터 분석에 집중하여 의미 있는 정보를 찾을 수 있다는 장점이 있다.
  • 오라클(Oracle) : 오라클 사가 개발한 오라클 빅데이터 어플라이언스(Oracle Big Data Appliance)는 하둡(Hadoop)을 탑재한 전문 어플라이언스 솔루션으로 빅데이터의 수집, 저장, 처리를 담당한다.[19] 하둡, 스파크(Spark), 노에스큐엘(NoSQL) 등과 같은 오픈소스 툴을 활용하고, 클릭(Qlik), 태블로(Tableau), 사스(SAS) 및 기타 분석 환경에서 빅데이터 워크로드를 실행하도록 설계되었다. 하드웨어와 소프트웨어 그리고 네트웍이 최고의 성능 을 발휘할 수 있도록 사전 구성된 어플라이언스 제품으로서 특히 네트웍은 인피니밴드(Infiniband)로 최적 연결되어 있어 하둡의 가장 큰 문제점인 네트웍 병목현상을 해결하고 데이터 대역폭 한계를 극복하였다.
  • 사스(SAS) : 사스 사가 개발한 하이 퍼포먼스 애널리틱스(High Performance Analytics)는 인-메모리 분석과 인-데이터분석, 그리드컴퓨팅 등의 기술을 활용해 분석 속도를 극대화하고, 이를 통해 복잡한 분석 프로세스를 다양하게 시도해 볼 수 있는 플랫폼이다.[20] 분석 워크로드 처리를 통합하고, 전체 분석 수명주기를 중앙에서 관리하는 병렬 처리로 효율성을 높였다.
  • 델이엠씨(Dell EMC) : 빅데이터를 위한 저장 솔루션으로 델 이엠씨는 ‘아트모스’ 솔루션을 내세웠다. 델 이엠씨 아이실론 스토리지는 모듈 방식의 구조와 자동화된 기능으로 대량의 데이터를 빠르고 쉽게 처리할 수 있어 용량과 성능을 유연하게 확장할 수 있다. 이는 전체 컴퓨팅 구조를 단순화하고 효율적으로 구성할 수 있게 해준다. 아이실론의 ‘오토 밸런스(Auto-balance) 기능’ 은 노드 추가로 각 노드 마다 자료의 양이 다를 경우, 데이터를 자동적으로 전체 노드에 균등 분산하는 기술이다. 만약 새로운 노드가 클러스터에 추가되면, 이 기능이 자동적으로 클러스터 내 노드들의 데이터를 균형적으로 재배치한다. 이는 스토리지 증설시 발생하는 비용과 복잡성, 위험을 감소시키며, 데이터 처리의 병목 현상을 방지해 스토리지 성능 향상과 효율을 극대화한다. 또 장애 시간을 없애 항상 최적의 성능을 발휘하도록 한다. 델 이엠씨 아트모스 클라우드 아키텍쳐 솔루션들은 아트모스 퍼포즈 빌트(Purpose-built) 하드웨어 어플라이언스, 아트모스 버추얼 에디션(Virtual Edition), 아트모스 지오드라이브(GeoDrive), 아트모스 소프트웨어 개발 키트(SDK), 아트모스 클라우드 딜리버리 플랫폼(Atmos Cloud Delivery Platform)등으로 구성돼 있다.[21]

국내 기업[편집]

  • ㈜케이티넥스알 : ㈜케이티넥스알 사가 개발한 엔답(NDAP)은 데이터 증가에 따른 비용 발생과 기술 병목 증상을 해결하는 솔루션이다.[22] 일정 시간 간격으로 데이터를 모아 일괄 처리하는 방식으로 작동하며, 데이터베이스 구축 언어인 에스큐엘(SQL) 처리를 지원하는 ‘아파치 하이브(Apache Hive)’에 고속 빅데이터 처리 엔진인 프레스토(Presto) 엔진을 추가해 데이터 처리 속도를 높였다. 여기에 기업이 자사 아이티(IT) 환경에 맞게 정해진 시간과 규칙을 지정하는 ‘워크 플로우(Workflow)’ 기능도 제공한다.
  • ㈜다음소프트(Daumsoft) : 2000년부터 빅데이터 자료를 수집하고 분석해 인사이트를 도출해 내는 국내 최초이자 최대 빅데이터 전문 기업이다. 대표적으로 썸트렌드(구 소셜메트릭스)는 트위터, 블로그, 인스타그램, 뉴스, 커뮤니티 등 소셜 빅데이터를 분석해 주는 빅데이터 분석 서비스로, 현재 범용으로 사용 가능한 썸트렌드 비즈(Sometrend Biz), 기업 맞춤형 썸트렌드 프로(Sometrend Pro), 리뷰 데이터 분석 서비스 썸트렌드 리뷰플러스(Sometrend Review+), 데이터 분석 서비스 썸트렌드 데이터플러스(Sometrend Data+), B2C 빅데이터 분석 플랫폼 '썸트렌드' 등의 세부 서비스가 있다.[23]
  • ㈜사이람 : 2001년, 사이람은 소셜 네트워크 분석(Social Network Analysis) 소프트웨어인 넷마이너(NetMiner)를 출시했다. 특징으로는 150개의 최신 소셜 네트워크 분석 모듈을 탑재하고 있으며, 이 외에도 통계 분석 및 데이터마이닝 등의 기능을 포함하는 통합적 분석을 지원하고 있다. 또한 연설문, 논문 초록, 소셜미디어 게시글, 신문 기사 등과 같은 비정형 텍스트 데이터를 입력하여 주요 단어를 추출하고 단어 간 의미망 분석도 가능하다.이는 넷마이너 외의 별도의 소프트웨어를 이용하지 않아도 됨을 의미할 뿐만 아니라, 서로 다른 분석 방법을 넘나드는 융복합 분석이 발생할 수 있다는 것을 의미한다. 그리고 최대 1,000,000개의 개체와 10,000,000개의 관계 데이터에 대한 분석이 가능하여, 다양한 형태의 소셜 빅데이터 처리 및 분석이 가능함을 알 수 있다.[24]
  • ㈜그루터 : ㈜그루터가 개발한 아차피 타조(Apache Tajo)(Apache Tajo)는 아파치 하둡 기반의 빅데이터 웨어하우스 솔루션으로 에스큐엘 온 하둡(Sql on Hadoop) 기술로 분류된다. 링크드인, 에스케이텔레콤 등, 국내외의 개발자와 함께 그루터가 개발을 리드하면서 발전시켜 나가는 아파치 재단의 오픈소스이다. 기존 시스템과 통합을 하거나 이를 대체할 수 있도록 표준 에스큐엘을 지원한다. 또한 중앙처리장치(CPU)와 메모리를 적절히 활용하여 높은 처리 성능을 보장한다. 타조는 기존 하둡 빅데이터 처리엔진인 하이브(Hive)보다 10배에서 100배까지 빠르게 데이터를 처리할 수 있는 특징을 가지고 있다. 타조와 같은 인터렉티브 분석(IA) 기술과 하둡 생태계 기술들을 최적화할 경우, 관계형 데이터베이스에서 제품군에서 제공하는 뛰어난 성능의 상용 데이터웨어하우스(DW) 제품들을 대체할 수 있다.[25]
  • ㈜솔트룩스 : 지난 20년간 인공지능(AI)과 빅데이터 기술 융합을 통한 혁신 플랫폼과 지능형 서비스를 제공해온 국내 인공지능, 데이터 과학 분야를 대표하는 기업이다. 자사의 빅데이터 분석 플랫폼과 자연언어처리 엔진 엘이에이(LEA)를 빅데이터 오픈 소스 프레임워크들과 융합, 최적화 함으로 탁월한 공통 분석 플랫폼을 구현한다. 빅오(BigO) 공통 플랫폼은 20년간 축적된 솔트룩스의 강력한 인공지능 및 기계학습 기반 상용 분석 엔진들과 경제적이며 확장성이 큰 빅데이터 프레임워크들을 연계 통합함으로 탁월한 안정성과 가용성뿐 아니라 강력하고 차별화된 기능과 분석 품질을 제공한다. 빅오 공통 플랫폼은 브이랜(YARN)을 포함한 하둡2(HADOOP-2)뿐 아니라 인메모리 맵리듀스 엔진인 스파크, 실시간 스트림 데이터 처리를 위한 스톰(Storm)과 유니마(Unima) 프레임워크를 디스커버리, 블루볼트(Bluebolt) 및 솔트룩스 스톰 등과 통합 구성한다. 또한 초대용량, 실시간 데이터의 수집, 저장, 검색과 병렬/분산 분석 및 시각화의 모든 기능을 단 하나의 플랫폼에서 구현한다.[26]

문제점[편집]

빅데이터의 가장 큰 문제점은 개인의 사생활 침해이다. 정보기술의 발달로 인해 많은 분야에서 개인의 데이터를 축적하게 되면서 빅데이터는 가공할 위력으로 다가오고 있다. 개인 신상정보가 유출되면, 비록 본인은 의도하지 않았지만 자신도 모르게 개인의 사적 정보가 불특정 다수에게 공개되며, 기존에 비해 빠른 속도로 확산되고, 본인조차도 해당 정보를 차단할 수 없는 문제가 있다. 개인정보 유출 문제는 스마트 시대에 심각하게 고민해야 할 가장 중요한 문제이다.

더불어 인터넷 사기 같은 문제도 소셜 커머스에서 발생하고 있다. 한국소비자원에 따르면 소셜 커머스 소비자 피해구제 접수 건수는 2010년 3건에서 2011년 8월까지 492건이 발생하여 무려 164배가 증가한 것으로 나타났다. 개인의 자발적인 참여를 기본으로 하는 소셜 네트워크 서비스의 특성상 본질적으로 소셜 커머스는 금융 사기를 미리 방지하기가 쉽지 않다.[27] 빅데이터의 주 생산 매체인 소셜 미디어 안에서 다양한 방면의 신뢰성을 확보하는 것이 필요하다.[28] 이처럼 빅데이터의 홍수 속에서 편리함도 누릴 수 있지만, 개인정보가 유출되어 악용되지 않도록 유의하여 사용할 필요성이 있다.

각주[편집]

  1. 빅데이터〉, 《네이버 국어사전》
  2. John Gantz & David Reinsel, "Extracting Value from Chaos", IDC IVIEW, IDC, 2011-06
  3. Global Agenda Council on Emerging Technologies, "The top 10 emerging technologies for 2012", World Economic Forum, 2012-02-15
  4. 지식경제부 보도자료, 〈융합·스마트시대 IT산업 주도를 위한 잰걸음〉, 《산업연구원 홈페이지》, 지식경제부, 2012-04-05
  5. 국립중앙과학관, 〈빅데이터의 속성 3V, 4V〉, 《과학학습콘텐츠》
  6. 6.0 6.1 6.2 빅 데이터〉, 《위키백과》
  7. 조성우, 〈Big Data 시대의 기술〉, 중앙연구소, 2011-09-27
  8. 국립중앙과학관, 〈텍스트 마이닝〉, 《네이버 지식백과》
  9. 한국정보통신기술협회, 〈오피니언 마이닝〉, 《IT용어사전》, 네이버 지식백과
  10. 한국정보통신기술협회, 〈소셜 네트워크, 분석〉, 《IT용어사전》, 네이버 지식백과
  11. 한국정보통신기술협회, 〈군집분석〉, 《IT용어사전》, 네이버 지식백과
  12. R〉, 《과학학습콘텐츠》, 국립중앙과학관
  13. 심뫼만이, 〈자라(ZARA), SCA에서 빅 데이터의 길을 열다〉, 《네이버 블로그》, 2012-11-17
  14. 스쿨잼, 〈심야버스 노선을 정할 때 사용된 '빅데이터'가 뭐야?'〉, 《네이버 블로그》, 2017-03-31
  15. pmg 지식엔진연구소, 〈머니볼〉, 《시사상식사전》, 네이버 지식백과
  16. "Those Who Influence The Markets Most", The Wall Street Journal, 2003-11-10
  17. 유선희, 〈빅데이터 기반의 산업 시장 정보 분석〉, 《한국과학기술정보연구원》, 2013-09-01
  18. swalloow, 〈GFS, HDFS 그리고 MapReduce〉, 《티스토리》, 2017-05-14
  19. Oracle Big Data: 저장 및 처리 영역〉, 《한국데이터산업진흥원》
  20. SAS 공식 홈페이지 - https://www.sas.com/en_us/home.html
  21. 백지영 기자, 〈빅데이터, “똑똑하게 저장하자”… 과거와 달라진 스토리지의 역할〉, 《디지털데일리》, 2011-11-15
  22. 석대건 기자, 〈KT넥스알 "빅데이터 플랫폼 '콘스탄틴'으로 시장 잡겠다"〉, 《디지털투데이》, 2019-05-21
  23. 다음소프트 위키백과 - https://ko.wikipedia.org/wiki/%EB%8B%A4%EC%9D%8C%EC%86%8C%ED%94%84%ED%8A%B8L
  24. 넷마이너〉, 《사이람》
  25. 류프리, 〈그루터의 타조〉, 《티스토리》 , 2017-08-04
  26. 빅오(BigO) 플랫폼〉, 《솔트룩스》
  27. 김효선 기자, 〈'짝퉁 천국' 소셜커머스, 소비자 피해 급증〉, 《서울파이낸스》, 2011-12-15
  28. 한국전자통신연구원(ETRI), 〈건강한 빅데이터 생산을 위한 환경 조성〉, 《빅데이터 플랫폼 전략》, 네이버 지식백과

참고자료[편집]

같이 보기[편집]


  별.png별.png별.png 이 빅데이터 문서는 산업혁명에 관한 좋은글로 선정되었습니다.