빅데이터
빅데이터(big data)란 생성된 양이 많고 생성 속도가 빠른 비정형 데이터를 말한다. 기존의 데이터는 일정한 형식에 맞게 정리하여 체계적으로 관리할 수 있었으나, 소셜 네트워크 서비스(SNS), 자율 주행 자동차, 기타 각종 기계장치 등에서 생성된 방대한 양의 비정형 데이터는 새로운 접근방법을 필요로 하게 되었다. 빅데이터는 기존의 오라클(Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, 새로운 빅데이터 분석 도구가 필요하게 되었다. '빅데이타'가 아니라 '빅데이터'가 올바른 표기법이다.
목차
개요
빅데이터는 기존 데이터에 비해 양이 너무 방대해, 이전의 분석 방법이나 도구로 수집, 저장, 검색, 분석, 시각화하기 어려운 정형 또는 비정형 데이터를 의미한다.[1] 빅데이터 기술은 빅데이터로부터 의미 있는 자료를 추출하고 결과를 분석하는 기술이다.[2]
빅데이터는 과거에 비해 데이터의 양이 폭발적으로 증가했다는 점과 함께 종류도 다양해져서 사람들의 위치정보와 행동뿐만 아니라 SNS를 통해 개인의 의견까지 분석하고 예측할 수 있다. 빅데이터는 규모가 방대한 만큼, 정치, 경제, 사회, 문화, 과학기술 등 많은 영역에서 인류와 사회에게 필요한 정보를 제공할 수 있는 가능성을 보여주고 있으며 그 중요성이 부각되고 있다. 세계경제포럼은 2012년 떠오르는 10대 기술 가운데 그 첫 번째를 빅데이터로 선정했으며,[3] 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅데이터를 선정하는 등[4] 빅데이터 기술에 전 세계가 주목하고 있다.
등장 배경
컴퓨터와 인터넷, 스마트폰 등 모바일 기기 이용이 보편화되면서 사람들이 남긴 흔적 데이터는 기하급수적으로 증가하고 있다. 예를 들어 쇼핑의 경우, 과거에는 옷 가게에서 물건을 살 때만 데이터가 기록되었으나, 인터넷 쇼핑의 경우에는 구매하지 않고 클릭만 해도 방문자의 기록이 데이터로 저장된다. 쇼핑뿐 아니라 자료 검색과 이메일, 교육과 학습, 은행·증권과 같은 금융거래, 취미생활 등 다양한 활동들이 PC와 인터넷에서 이루어지고 있다.
사용자들이 직접 제작하는 UCC를 비롯한 동영상 콘텐츠를 인터넷에 업로드하고, 영상 속의 정보들을 통해 정보를 얻는 것이 일반화되고 있다. 또한 스마트폰과 SNS에서 생성되는 문자나 대화 등으로 인해, 데이터의 증가 속도가 더 빨라지고 있을 뿐 아니라, 데이터의 질과 형태에서도 예전과 다른 양상을 보이고 있다. 특히 블로그, 인터넷 카페, SNS 등에서 유통되는 텍스트는 내용을 통해 글쓴이의 성향과 감정뿐만 아니라, 소통하는 상대방과의 관계까지도 분석할 수 있다.
위의 예시들처럼 PC, 인터넷, 스마트폰 등 정보통신 기기가 생활화되면서 과거에 비해 축적할 수 있는 데이터의 범위와 양이 급격하게 증가하게 되고, 이를 찾아볼 수 있는 수단 역시 발달되면서, 기존의 데이터에 개인의 평가를 비롯한 다양한 정보를 추가해 더 광범위한 데이터를 만들 수 있게 되었다.
특징
빅데이터의 특징은 크게 3V로 설명할 수 있다. 3V란 데이터의 다양성(variety), 데이터의 생성 속도(velocity), 데이터의 양(volume)을 나타낸다.[5]
- 다양성(variety) : 빅데이터는 다양한 형태의 데이터를 포함한다. 정형 데이터뿐만 아니라, 사진, 오디오, 비디오, 소셜 미디어 데이터, 위치 데이터, 로그 파일 등과 같은 비정형 데이터가 빅데이터에 포함된다.
- 속도(velocity) : 빅데이터는 데이터의 생성 속도가 매우 빠르다. 기존 데이터와 달리, 빅데이터는 새로 생성되고, 저장되며, 시각화되는 과정이 매우 빠르게 이루어진다.
- 양(volume) : 빅데이터는 저장되는 물리적 데이터 양이 매우 많다. 빅데이터의 가장 기본적인 특징이다.
처리 기술
빅데이터를 분석하고 활용하기 위해서 다양한 처리 기법이 존재한다. 이 다양한 기법들을 크게 분석기술과 표현기술로 분류한다.
분석기술
빅데이터 분석을 위해 대부분 기존 전산학이나 통계학에서 사용하던 기계학습, 데이터 마이닝, 패턴 인식, 자연 언어 처리 기술 등을 사용한다.[6] 소셜 미디어 등 비정형 데이터의 증가로 인해, 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등의 분석 기술이 주목을 받고 있다.[7]
- 텍스트 마이닝(text mining) : 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여, 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술이다.[8]
- 오피니언 마이닝(opinion mining) : 웹사이트와 소셜 미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공 하는 기술이다.[9]
- 소셜 네트워크 분석(SNA; social network analysis) : 수학의 그래프 이론을 이용하여 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성 등을 분석하고 시각화하는 측정 기법이다.[10]
- 군집 분석(cluster analysis) : 각 대상의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 기법이다.[11]
표현기술
활용
정치
2008년 미국 대통령 선거
2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 '유권자 맞춤형 선거 전략'을 전개했다. 이는 나이, 종교, 인종, 가구형태 등 기본적인 인적사항을 바탕으로 유권자들을 분류하고 더 나아가 구독중인 자지, 마시는 음료, 과거 투표여부까지 전화, 개별방문이나 소셜미디어 통해 정보를 수집하였다. 수집한 데이터는, 데이터베이스를 온라인 통합관리하는 ‘보트빌더(votebuilder.com)’ 시스템을 이용해 유권자를 분석해 예측 해나갔다. 이를 바탕으로 유권자 ‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 효과적인 선거를 치를 수 있었다. [13]
문화
머니볼 이론과 데이터 야구
머니볼 이론이란, 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다.[14] 실제로 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 낮은 구단 지원금에도 불구하고 최소비용으로 최대효과를 거둔 상황에서 유래되었다. 빌리 빈은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우며 팀을 변화시켰다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏, 앨런 그린스펀과 함께 빌리 빈을 선정[15] 하는 등 머니볼 이론은 주목받았다. 최근 과학기술 및 카메라 기술의 발달을 통해 더 정교한 데이터 수집이 가능해졌으며, 야수의 움직임, 타구 방향, 투구의 궤적 및 투수의 그립까지 잡아낼 수 있게 되었다. 기존의 정형 데이터뿐만 아니라 비정형 데이터의 수집과 분석, 그리고 적절한 활용을 통해 최근 야구경기에서의 빅 데이터의 중요성은 더 커지고 있다.
사회
빅데이터를 활용한 심야버스
심야시간의 심야 근로자의 교통수단 부재, 승차거부로 인한 불편, 교통비 부담 등으로 서울시는 심야시간에 대중교통의 편의증대를 위한 방안을 마련했다.서울시는 통신사업자 KT와 협력하여 저녁시간의 위치정보, 즉 지역데이터를 활용했다. 먼저 시 전체를 1km 단위로 구역을 나눈 뒤 사람들이 많이 몰려드는 장소와 요일, 이동경로들을 수집하고 분석해 심야버스의 노선을 정한 것이다.
독감예방과 빅데이터
2008년 2월 구글 독감트렌드라는 웹사이트에서 사람들에게 전 세계의 독감유행을 알렸다. 정부보다 약 2주 빠르게 알려졌는데, 이것은 사람들의 검색어를 수집해 데이터가 되서 활용한 것이다. 구글은 감기와 관련된 단어와 클릭이 증가한 데이터를 분석한 뒤, 독감이 유행중임을 발견했다. 이를 활용해 독감환자의 지역과 확산정보를 제공하며 독감을 예방했다.
경제 및 경영
SPA브랜드, ZARA의 성공비결
최근 zara는 빅데이터 처리기술을 이용해 이를 성공한 브랜드 중 하나이다. 빅데이터를 이용한 전략은 아래와 같다.
- 무재고 시스템: 소매단위 별 정확한 수요변화체크를 바탕으로 무재고 시스템을 실현했다.
- 수직적 통합: 디자인부터 판매하기까지 통합을 통해 2주내에 데이터를 기반으로 분석한 신제품을 출시
- 실시간분석 알고리즘: 전세계 매장 판매 데이터를 실시간 분석하는 알고리즘을 개발해 활용.
위 요인들로 zara는 전 세계인이 자라를 방문하도록 데이터를 수집, 분석 및 활용하여 매출 증가의 효과를 얻었다.
빅데이터 경영
방대한 규모의 데이터를 활용한 '빅데이터 경영'이 주목받으며, 데이터 품질을 높이는 동시에 데이터의 처리를 돕는 데이터 통합의 중요성이 떠오르고 있다. 데이터 통합(DI)은 데이터의 추출, 적재, 변환을 위한 ETL 솔루션이 핵심이다. ETL 솔루션을 활용하면 수많은 데이터를 일일이 기업 데이터 포맷으로 코딩하지 않아도 데이터 품질을 제고할 수 있다는 점에서 DI는 빅데이터 환경에 필수적인 데이터 솔루션으로 평가받고 있다. 한편 비즈니스 인텔리전스(BI)보다 발전된 빅데이터 분석 방법은 비즈니스 애널리틱스(BA)인데, 고급분석 단계에 있는 BA는 BI를 기본적으로 포함하면서 확률 분석, 통계분석, 미래 예측 기능 등을 포함해 최적의 데이터 기반 의사결정을 가능하게 하는 것으로 평가된다. [16]
문제점
빅데이터에 대한 큰 문제점은 사생활 침해다. 정보기술의 발달로 인해 많은 분야에서 개인의 데이터를 축적하게 되면서 빅데이터는 가공할 위력으로 다가오고 있다.
개인 신상정보 유출과 같이 의도하지 않았지만 드러나게 되는 개인의 사적인 정보가 기존에 비해 빠르게 확산되고, 본인조차도 차단할 수 있는 방법이 제공되고 있지 않다는 점은 스마트 시대에 심히 고민해봐야 할 문제다.
더불어 인터넷 사기 같은 문제도 소셜 커머스에서도 발생하고 있다. 한국소비자원에 따르면 2011년 12월 14일 기준으로 소셜 커머스 소비자 피해구제 접수 건수는 2010년 3건에서 2011년 8월까지 492건이 발생하여 무려 164배가 증가한 것으로 나타났다. 개인의 자발적인 참여를 기본으로 하는 소셜 네트워크 서비스의 특성상 본질적으로 소셜 커머스는 금융 사기를 미리 방지한다는 것이 쉽지 않다.[17] 빅데이터의 주 생산 매체인, 소셜 미디어안의 다양한 방면에서 신뢰성을 확보하는 것이 필요하다. [18]
이처럼 빅데이터의 홍수 속에서 편리함을 누리는 만큼, 정보가 악용되지 않도록 평가하고 사용할 필요성이 있다.
각주
- ↑ 〈빅 데이터〉, 《네이버 국어사전》
- ↑ John Gantz & David Reinsel, "Extracting Value from Chaos", IDC IVIEW, IDC, 2011-06
- ↑ Global Agenda Council on Emerging Technologies, "The top 10 emerging technologies for 2012", World Economic Forum, 2012-02-15
- ↑ 지식경제부 보도자료, 〈융합·스마트시대 IT산업 주도를 위한 잰걸음〉, 《산업연구원 홈페이지》, 지식경제부, 2012-04-05
- ↑ 〈빅데이터의 속성 3V, 4V〉, 《과학학습콘텐츠》, 국립중앙과학관
- ↑ 〈빅 데이터〉, 《위키백과》
- ↑ 조성우, 〈Big Data 시대의 기술〉, 중앙연구소, 2011-09-27
- ↑ 국립중앙과학관, 〈텍스트 마이닝〉, 《네이버 지식백과》
- ↑ 한국정보통신기술협회, 〈오피니언 마이닝〉, 《IT용어사전》, 네이버 지식백과
- ↑ 한국정보통신기술협회, 〈소셜 네트워크, 분석〉, 《IT용어사전》, 네이버 지식백과
- ↑ 한국정보통신기술협회, 〈군집분석〉, 《IT용어사전》, 네이버 지식백과
- ↑ 〈R〉, 《과학학습콘텐츠》, 국립중앙과학관
- ↑ 위키백과,〈'빅데이터 활용사례 정치'〉
- ↑ 머니볼(Moneyball) 이론, "에듀윌 정보통신/오늘의 일반상식", 평생교육 No.1 에듀윌, 2012년 01월 11일.
- ↑ [<<Those Who Influence The Markets Most>>, The Wall Street Journal, November 10, 2003.]
- ↑ 위키백과,〈'빅데이터 활용사례 경영〉
- ↑ 김효선, <‘짝퉁천국’ 소셜 커머스, 소비자 피해 급증>, 《서울파이낸스》, 2011년 12월 15일.
- ↑ 네이버 지식백과,〈'빅데이터 플랫폼 전략'〉
참고자료
- 네이버 지식백과, 〈'빅데이터'〉, 《네이버 지식백과》
- 위키백과, 〈'MLB (메이저 리그 베이스볼)의 머니볼 이론 및 데이터 야구'〉, 《위키백과》
- 스쿨잼, 〈'심야버스 노선을 정할 때 사용된 '빅데이터'가 뭐야?'〉, 《개인블로그》, 2017-03-31
- 코스모스 코리아, 〈'구글독감 예측시스템과 빅데이터'〉, 《개인블로그》, 2017-07-08
- 심뫼만이, 〈'자라(ZARA), SCA에서 빅 데이터의 길을 열다'〉, 《개인블로그》, 2012-11-17
같이 보기
- 데이터
- 데이터베이스 관리 시스템(DBMS)