검수요청.png검수요청.png

데이터 사이언스

위키원
이동: 둘러보기, 검색

데이터 사이언스(Data Science)란 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야다. 데이터 과학이라고도 한다.

개요

데이터 사이언스는 데이터를 통해 실제 현상을 이해하고 분석하는 방법론을 통합으로 하는 개념으로 정의할 수 있다. 데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 튜링상을 수상한 짐 그레이(Jim Gray) 박사는 데이터 사이언스는 과학의 네 번째 패러다임으로 정의하고 과학(경험, 이론, 계산, 데이터)에 관한 모든 것이 바뀌고 있는데, 이유는 정보기술과 데이터 범람(data deluge) 때문이라고 주장했다. 사용되는 기술은 여러 분야에 걸쳐 있으며 수학, 통계학, 계산기 과학, 정보공학, 패턴 인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있다. 데이터 사이언스는 생물학, 의학, 공학, 사회학, 인문학과 등의 여러 분야에 응용되고 있다.[1] 데이터 사이언스 작업 흐름은 데이터를 수집하고 이를 이해하는 과정과 추상화하는 과정을 거쳐 최종 산출물로 사람이 최종 소비자가 되는 보고서 및 대시보드와 기계가 최종 소비자가 되는 API/코드 형태로 최종 작업이 이뤄지게 된다.

데이터 사이언티스트

데이터에서 통계나 머신러닝(Machine Learning) 기술을 활용하여 비즈니스 기회를 찾고, 이를 현실화하는 사람이 바로 데이터 사이언티스트(Data Scientist)이다. 데이터 사이언스에서 '사이언스(Science)'는 과학을 말한다. 과학은 가설을 세우고, 실험을 설계한 뒤 수행하고, 그 결과를 분석하는 과정을 계속해서 반복한다. 즉, 데이터 사이언티스트는 실험을 통해 문제를 개선하고 그 개선 결과를 분석하여 다음 실험과 액션을 도출하는 사람을 말한다. [2]

구성원

주로 데이터 사이언스 팀은 크게 네 가지의 역할로 나눌 수 있다.

  • 데이터 엔지니어(Data Engineer) : 기본적으로 대량의 데이터를 수집, 저장, 관리하는 역할이 주된 업무로 한다. 이를 위해서 에스큐엘(Structured Query Language)이 기본 기술이고 데이터 수집과 자동 처리를 위해서 자바(Java), 스칼라(Scala), 파이썬(Python)이 주된 기술로 전산 기본기가 특히 중요하다.
  • 데이터 분석가(Data Analyst) : 대시보드를 생성하고, 가설 검정, 데이터 시각화를 주된 업으로 하며 일차적으로 누군가 혹은 특정 장소에 저장된 데이터를 바탕으로 탐색적 데이터 분석을 수행하는 것을 업으로 한다. 이런 업무를 무리 없이 수행하기 위해서 엑셀(Excel) 혹은 구글 시트와 같은 스프레이시트를 자유자재로 다룰 수 있는 기본기가 필요하고, 데이터를 추출하기 위해서 에스큐엘 쿼리 기술, 대시보드 작성을 위해 루커(looker), 타블로(Tableau), 파워 BI(Power BI)를 활용할 수 있어야 한다.
  • 데이터 사이언티스트(Data Scientist) : 오랫동안 통계학을 공부하여 실험을 설계하고 운영하며 결과를 토대고 인과(causality)를 추론하고 전통적인 기계 학습(Traditional Machine Learning) 즉 정형 RDBM(Relational Database Management System)에서 에스큐엘을 사용해서 데이터를 추출하여 통계 모형 개발을 개발하는 업무를 주로 한다.
  • 기계 학습 과학자(Machine Learning Scientist) : 예측과 분류를 주된 업으로 하고 최근 들어 강조되고 있는 비정형 데이터 이미지와 텍스트를 딥러닝(Deep Learning) 방법론을 활용하여 개발하는 작업을 주된 업무로 한다. 이를 위해서 R과 파이썬을 주된 프로그래밍 언어로 강한 통계, 확률, 미적분, 선형대수 지식을 갖춰야 한다.[3]

응용 분야

은행업, 수송업, 전자상거래, 의료업 등과 같은 여러 산업은 제품 개선을 위해 데이터 사이언스를 이용하고 있다. 데이터 사이언스는 방대한 분야이므로 응용 분야도 거대하고 다양하다. 산업은 앞으로 나아가기 위해 데이터가 필요하며, 따라서 오늘날 모든 산업의 필수적인 측면이다.

은행

은행은 데이터 사이언스의 가장 큰 응용 분야 중 하나다. 은행들은 빅데이터 및 데이터 사이언스를 통해 경쟁에서 뒤처지지 않고 있다. 데이터 사이언스를 통해 은행은 자원을 효율적으로 관리할 수 있으며, 나아가 사기 조사, 고객 자료 관리, 즉각적인 예측 분석 및 고객 세분화 등의 방법을 통해 더욱더 현명한 결정을 내릴 수 있다. 은행은 고객의 종신 가치를 평가해 고객 수를 모니터링할 수 있도록 하고 데이터 사이언스를 통해 전체적인 모습을 평가할 수 있다. 데이터 사이언스를 통해 고객의 요구에 따라 맞춤형으로 시장을 확장할 수 있다. 실시간과 예측성 분석에서 은행은 분석 전략을 개선한다.

금융

데이터 사이언스는 다양한 금융 업무를 자동화하는 데 핵심적인 역할을 해 왔다. 은행들이 자동화된 리스크 분석을 하는 것과 마찬가지로 금융업계도 데이터 사이언스를 통해 이 작업에 사용했다. 금융업계는 회사의 전략적 결정을 수행하기 위해 리스크 분석을 자동화해야 한다. 그리고 데이터 사이언스를 통해 금융업계는 위험을 인식하고 위험성을 먼저 고려한다. 데이터 사이언스는 매우 중요한 역할을 한다. 엄격한 데이터 분석을 통해 금융 기관은 데이터 중심 결정을 내릴 수 있고, 사용자 환경을 개선하는 데 중요한 역할을 하고 있다. 고객 경험의 광범위한 분석과 선호도의 수정을 통해, 금융 기관은 고객들과 개인화된 관계도 형성할 수 있다.

제조업

21세기에 데이터 사이언티스트들은 새로운 공장 노동자라고 볼 수 있다. 데이터 사이언티스트가 제조업에서 중요한 위치를 말하는 것이다. 데이터 사이언스는 제조업의 생산 최적화, 비용 절감, 수익 증대를 위해 광범위하게 사용되고 있다. 더욱이, 사물인터넷(IoT)과 같은 기술이 추가됨에 따라, 데이터 사이언스는 기업이 잠재적인 문제를 예측하고, 시스템을 모니터하고, 데이터의 연속적인 흐름을 분석할 수 있게 되었다. 고객 심사에 대한 심층 분석을 통해 데이터 사이언티스트는 업계가 더 나은 의사 결정을 내리고 제품의 품질을 향상하는 데 도움을 줄 수 있고, 데이터 사이언스는 공업에서 또 다른 중요한 방면으로 자동화된다. 역사와 실시간 데이터에 힘입어 산업은 생산라인을 높이는 데 도움이 되는 자체 시스템을 발전시킬 수 있다.

수송

데이터 사이언스의 또 다른 중요한 응용 분야는 운송이다. 수송 업계에서는 데이터 사이언스가 운전자가 더욱 안전하게 운전할 수 있는 환경을 만드는 데 적극적으로 나서고 있고, 차량 성능을 최적화하고 운전자의 자율성을 높이는 데도 핵심 역할을 하고 있다. 데이터 사이언스는 소비 패턴, 운전자 행동, 적극적인 차량 모니터링에 대한 광범위한 분석을 통해 수송 산업에 강력한 기반을 만들어냈다. 자율주행차는 오늘날 세계에서 가장 뜨거운 이슈로, 자동차 제조사들은 데이터 사이언스를 통해 자동차에 자율성을 도입해 자율주행차를 만들 수 있다. 게다가, 산업들은 데이터 사이언스의 도움으로 더 나은 물류 경로를 만들 수 있고, 소비자 프로파일, 위치, 경제 지표 및 물류와 같은 다양한 변수를 사용하여 공급 업체는 전달 경로를 최적화하고 적절한 것을 제공할 수 있다.

의료

의료 업계에서 데이터 사이언스는 크게 도약하고 있다. 데이터 사이언스를 이용한 의료 분야의 각각 업종에서 사용하고 있다. 의학 이미지 분석에서 데이터 사이언스는 X선, 자기공명영상, CT 스캔 등의 의학 이미지 분석을 위해 창조되었고, 데이터 사이언티스트는 의사가 복잡한 의료 이미지를 심층적으로 이해할 수 있는 강력한 이미지 인식 도구를 만들었다. 데이터 과학을 이용하는 또 다른 중요한 분야는 약물 발견이다. 약물 발견에서는 새로운 후보 약물이 공식화된다. 약물 발견은 지루하고 종종 복잡한 과정으로, 데이터 사이언스는 이 과정을 간소화하고 새로 발견된 약물의 성공률에 대한 초기 통찰력을 제공하는 데 도움이 될 수 있다. 머신러닝을 통해, 우리는 또한 여러 가지 약물 조합과 다른 유전자 구조에 대한 효과를 분석하여 결과를 예측할 수 있다.

전자상거래

전자상거래와 소매 산업은 데이터 사이언스로부터 큰 혜택을 받았다. 잠재적인 고객 기반을 식별하기 위해 데이터 사이언스 많이 활용되고 있다. 상품과 서비스를 예측하기 위한 분석할 수도 있고, 인기 있는 제품의 스타일을 식별하고 추세를 예측하는 데 사용된다. 데이터 사이언스를 통해 기업들은 소비자를 위해 가격 구조를 최적화하고 있다.[4]

각주

참고자료

같이 보기


  검수요청.png검수요청.png 이 데이터 사이언스 문서는 데이터에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.