"데이터"의 두 판 사이의 차이

2024년 11월 4일 (월) 00:33 기준 최신판

데이터(data)란 어떤 값을 포함하고 있는 가공되지 않은 1차 자료를 말한다. '데이타'가 아니라 '데이터'가 올바른 표기법이며, 자료(資料)라고도 한다.

어원[편집]

데이터(data) : 어떤 값을 포함하고 있는 가공되지 않은 1차 자료를 말한다.

데이터베이스(database) : 데이터를 모아둔 집합이다. DB라고 한다.

데이터베이스 관리 시스템(DBMS, database management system) : 데이터베이스를 체계적으로 관리하기 위한 시스템이다.

정보(情報, information) : 특정한 목적에 맞게 데이터를 정리하여 의미 있는 내용을 이끌어 낸 것을 말한다.

'데이터' 혹은 '데이타' 등으로 불리거나 쓰이는데, 옛날에는 '데이타'로 많이 표기했고 외래어 표기법으로는 '데이타'가 맞으나, 현재는 '데이터'로 쓰인다. 국립국어원의 표준국어대사전에는 데이터로 표기했다. 영어권에서도 주요 사전에 실리는 발음은 여전히 /ˈdeɪtə/(데이타)이지만 21세기 들어와서 /ˈdætə/(다다) 또는 /ˈdɑːtə/(다타)라고 읽는 경우가 늘어나고 있다. 구글에 data pronunciation(데이터 발음)을 검색해봐도 dayta가 맞는가 dahta가 맞는가 질문글이 많이 올라와 있다.^[1]

Data란 라틴어 단어 Datum의 복수형인 Data에서 유래했으며 라틴어에서 Datum의 뜻은 "present/gift, that which is give, debit"이다. 현재에서도 기본적으로 복수형 취금을 하나 가끔 하나의 고유명사화가 되어서 단수로 취급하는 경우도 있다.^[1]

용어 정의[편집]

이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료
관찰이나 실험, 조사로 얻은 사실이나 자료
컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
데이터는 정보(information)가 아니고, 데이터를 가공해 얻은 것이 정보

연구방법론의 용어[편집]

연구에 직간접적으로 이용되는 일체의 자료이다. 어떤 연구의 결과가 얼마나 유용할지는 그 자료의 질적 적절성이 중요하다. 또한 연구에 필요한 정보들을 수집하는 과정을 가리켜서 자료수집이라고 부른다. 자료수집에는 사례연구법(case study), 질문지법(survey), 참여관찰법(observation/participation), 면접법(interview), 실험법(experiment) 등이 있다.^[1]

장 점	자료 수집 방법	단 점
통계 처리 쉽고 자료 분석 용이	← 질문 지법 →	문맹자에게 실시 곤란
과학적 연구 가능	← 실험법 →	윤리적 문제 발생
깊이 있는 자료 수집	← 면접법 →	비용이 많이 들고 표본을 구하기 어려움
현장강 있는 생생한 자료 수집	← 참여 관찰법 →	예상치 못했던 변수의 통제 곤란
시간과 공간의 제약 극복	← 문헌 연구법 →	문헌의 신뢰성이 낮으면 연구의 신뢰성이 떨어짐

종류[편집]

L 자료: 생애 데이터

한 대상의 통상적 정보를 알 수 있는 자료
특히 특정 개인을 대상으로 한 임상 장면에서 많이 사용
생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회 등이 이에 해당됨
객관화된 자료이지만, 이용에 한계 존재^[2]

O 자료: 관찰 데이터

숙련된 관찰자 혹은 대상을 잘 아는 관계자, 친지 등이 제공하는 자료
면접법, 참여관찰법 등을 통해 확보 가능
주변 사람들의 증언이나 CCTV 영상 자료 역시 O-자료에 속함^[2]

T 자료: 검사 데이터

실험적 절차를 거치거나 표준화된 검사를 통해 얻어진 데이터
대중매체에서 과학자 인물들이 손에 들고 있는 도표들도 대부분 T-자료
가장 객관적이고 질 좋은 자료이지만, 현실적으로 접해보기는 그다지 쉽지 않음
자료를 확보하는 과정에서 연구윤리 문제 개입^[2]

S 자료: 자기보고 데이터

어떤 대상에 대한 정보를 얻을 때 그 대상에게 직접 물어보아 얻은 자료
사람을 대상으로 하므로, 그 분야는 심리학이나 사회학 등에 한정될 수 밖에 없음
매우 흔하게 접할 수 있는 자료로, 흔한 설문조사나 여론조사 등을 통해 얻어짐
"사람은 자신이 자신을 제일 잘 안다"는 전제에 기초해 있으며, 사회적 선망에 의해 답변이 왜곡될 수 있음^[2]

컴퓨터의 용어[편집]

전산학, 컴퓨터공학에서가 아닌 컴퓨터 사용자들이 사용하는 용어로 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일을 데이터라고 부른다.
데이터는 수치화된 크기/규모(magnitude), 개수(quantity), 문자, 또는 컴퓨터에 의해 해석되어 처리되거나 다른 기계, 다른 컴퓨터를 제어할 수 있는 명령어를 나타내는 심볼 등을 뜻하며, 보통 자기 저장매체(플로피디스크, 하드디스크, 카세트 테이프, 오픈릴 테이프, DAT, OMR카드 등), 메모리 저장체(RAM, ROM, 플래시 메모리, SSD 등), 광학 저장매체(CD, DVD, 블루레이, OCR카드, 펀치카드 등), 기계적 저장매체 등에 저장되며 전기 신호의 형태로 전송될 수 있다. Datum은 특정 장소에 저장된 단일 값을 뜻한다.^[1]

디지털 데이터[편집]

디지털 데이터에서는, 디지털 시스템이기 때문에 당연히 최소 정보 구분 단위가 비트(Bit)이지만, 실제로는 효율성과 편의성을 위해 입출력을 위한 최소 크기는 비트 8개의 모임인 바이트(Byte)나, CPU가 한 번에 처리할 수 있는 워드(Word) 단위가 된다.^[1]

프로그램 데이터[편집]

프로그램은 컴퓨터가 해석하여 실행할 수 있는 명령을 나타내는 심볼 데이터의 모임이다. 근본적으로 컴퓨터라는 기계는 데이터의 형태로 표현된 일련의 명령어에 따라 동작하도록 설계되었다. 사실상 프로그램에서 실행이 되는 명령어(코드)와 직접 실행이 되지 않는 부분이 저장되는 형태나 방식이 완전히 동일하다. 따라서 다른 기계나 컴퓨터를 제어할 때, 정보를 통신하는 방법이 하드웨어적으로 한 가지만 존재해도, 직접 실행되는 부분과 부가적인 부분이 동일하게 표현되기 때문에, 이론상으로는 문제 없이 이것들을 제어하는 프로그램을 만들 수 있다.^[1]

프로그래밍 데이터[편집]

프로그래밍에서 컴퓨터가 실행하는 명령어 부분을 Text라고 부르고, 프로그램이 참조하는 숫자 값, 이진 값, 또는 문자 값, 변수 등이 저장되는 부분을 Data라고 구분하기도 한다. 어셈블리어나 유닉스에서 이와 같이 구분하는 것을 볼 수 있다.^[1]

경영학의 용어[편집]

2010년대 이후 각광받고 있는 개념으로, 이 시대를 업계에서는 데이터의 시대라고 부르기도 하며, 일부는 산업혁명 4.0이라고 부르기도 한다.^[1]

데이터 유통 분야[편집]

데이터 팩토리(data factory)라는 새로운 개념의 회사들이 생겨났는데, 다른 말로는 데이터 뷰로(data bureau)라고 불리기도 한다.
가치 있는 데이터들을 수집, 저장, 가공, 통합하여 재판매하는 일을 주로 하고 있다.
엡실론(Epsilon), 액시엄(Acxiom), 이쿼팩스(Equifax)같은 회사들이 유명하다.
국내에도 KCB, NICE, SK 지오비전, 네이버 등이 데이터 팩토리로 불릴 수 있다.^[2]

금융 분야[편집]

데이터 생태계라 하여 콜렉터, 브로커, 유저로 나누어지는 순환구조를 가정
데이터는 판매자가 과저 판매했던 데이터가 이후 특정 "사인(sign)"을 달고 판매자에게 되돌아오는 식으로 구성
데이터 소비자는 구입한 데이터에 자신의 내부 데이터를 융합시켜서 활용되고,
그러한 경제활동을 통해서 데이터 판매자에게 가치 있는 데이터가 다시 전달되는 형태^[2]

데이터의 종류[편집]

레코드 데이터[편집]

데이터 마이닝에서 가장 많이 사용되는 데이터 형태로 대개 flat 파일 형태로 저장된 데이터 세트
레코드(Record)의 모음으로 구성
각 레코드는 고정된 수의 속성으로 구성

트랜잭션 데이터[편집]

구매자와 구매 물품목록 형태로 이루어진 데이터 세트
장바구니 데이터(Market Basket Data)라고도 불림

데이터 행렬[편집]

모든 속성이 수치 형태의 값을 가지는 행렬 형태의 데이터 세트
일반적으로 데이터의 행은 개체, 열은 속성을 나타냄
패턴 행렬(Patten Matrix)이라고도 불림

희박한 데이터 행렬[편집]

데이터 행렬의 특별한 경우
문서의 경우에는 용어 벡터(term vector)형태로 표현 가능

그래프 데이터[편집]

데이터 개체 간의 관계나 데이터 자체를 그래프로 표현하는 경우에 사용하는 데이터 세트

순서 데이터[편집]

데이터 개체의 속성이 시간 또는 공간적인 순서와 연관되는 데이터 세트

연속 데이터[편집]

트랜잭션 데이터에서 시간 성분을 추가적으로 고려한 것
고객의 시간에 따른 구매 경향 예측과 같은 응요에서 사용될 수 있음

서열 데이터[편집]

데이터 개체들 사이에 순서가 존재하는 데이터

시계열 데이터[편집]

연속 데이터의 특수한 경우
시간에 따른 속성의 변화를 관찰한 데이터 집합

공간 데이터[편집]

위성 사진 분석 데이터와 같이 각 데이터 개체가 공간 상의 위치 정보와 연관이 되는 데이터 집합
예) 지구 상의 지점에 따른 온도

빅데이터[편집]

빅데이터는 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 기존의 데이터는 일정한 형식에 맞게 정리하여 체계적으로 관리할 수 있었으나, 소셜 네트워크 서비스(SNS), 자율주행 자동차, 기타 각종 기계장치 등에서 생성된 방대한 양의 비정형 데이터는 새로운 접근 방법을 필요로 하게 되었다. 빅데이터는 기존의 오라클(Oracle) 등 관계형 데이터베이스 관리 시스템(RDBMS)으로는 분석이 어려워, 새로운 빅데이터 분석 도구가 필요하게 되었다. '빅데이타'가 아니라 '빅데이터'가 올바른 표기법이다. 빅데이터에 대해 자세히 보기

각주[편집]

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 〈데이터〉, 《나무위키》
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 〈데이터 전처리〉, 《수안실험실》

참고 자료[편집]

〈데이터〉, 《나무위키》
〈데이터 전처리〉, 《수안실험실》
〈데이터〉, 《네이버 지식백과》

같이 보기[편집]

이 데이터 문서는 데이터에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

개발 : 프로그래밍, 소프트웨어, 데이터^□^■^⊕, 솔루션, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

데이터	ACID • CRUD • CSV • DAO • DB • DBMS • DB 명령어 • DCL • DDL • DML • DTO • ERD • ETL • JDBC • LOD • MDM • ODBC • RDBMS • RDF • SQL • 가상 데이터베이스 • 관계형 데이터베이스 • 그래프 • 기본키(PK) • 내부조인 • 널 • 노드 • 다이어그램 • 대리키 • 대체키 • 데이터 • 데이터댐 • 데이터마트 • 데이터 모델링 • 데이터뱅크 • 데이터베이스(DB) • 데이터베이스 언어 • 데이터 사이언스 • 데이터 사전 • 데이터 웨어하우스 • 데이터 정의어(DDL) • 데이터 제어어(DCL) • 데이터 조작어(DML) • 데이터 클러스터 • 데이터 토큰 (문자열) • 데이터 통합 • 덱 • 디비서버 • 라이트조인 • 락 • 레코드 • 레프트조인 • 로그 • 로그파일 • 로깅 • 롤백 • 리두로그 • 릴레이션 • 마스터데이터 • 마스터데이터관리(MDM) • 마이그레이션 • 메타데이터 • 배열 • 뷰 • 빅데이터 • 서브쿼리 • 수퍼키 • 순차리스트 • 스키마 • 스택 • 슬로우쿼리 • 엔티티 • 역정규화 • 연결리스트 • 외래키(FK) • 외부조인 • 인덱스 • 인덱싱 • 인젝션 • 자료구조 • 정규화 • 정보 • 조인 • 커밋 • 쿼리 • 큐 • 키 • 타깃 • 테이블 • 튜플 • 트랜잭션 • 트리 • 트리거 • 티비마이그레이터 • 풀조인 • 프로시저 • 필드 • 해시 • 해시맵 • 해시태그 • 해시테이블 • 해시함수 • 해싱 • 후보키

데이터베이스 관리 시스템 (DBMS)	관계형 데이터베이스 관리 시스템(RDBMS) • 노에스큐엘(NoSQL) • 데이터베이스 관리 시스템(DBMS) • 더비 • 디비투(DB2) • 레디스 • 마리아디비(MariaDB) • 마이에스큐엘(MySQL) • 몽고디비 • 빅테이블 • 사이베이스 • 선디비 • 알티베이스 • 액세스 • 에스큐엘(SQL) • 에스큐엘라이트(SQLite) • 에이치베이스 • 엠에스에스큐엘(MS-SQL) • 오라클(Oracle) • 인터베이스 • 인포믹스 • 카산드라 • 카우치디비 • 큐브리드 • 티베로 • 파이어버드 • 포스트그레스큐엘(PostgreSQL) • 하이퍼테이블

DB 명령어	alter • array • create • delete • drop • from • full join • grant • inner join • insert • join • left join • null • order by • outer join • rename • revoke • right join • select • truncate • update • where

시스템 연계	API • CGI • EAI • ESB • JPA • RSS • SOA • SOAP • SSL • SSO • web3.js • XML • 디비투디비(DB-to-DB) • 레스트풀(RESTful) • 상호운용성 • 시스템 인터페이스 • 신디케이션 API • 오픈 API • 웹 API • 웹개방성 • 윈도우 API • 자바 API • 크롤링 • 프라이빗 API

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

산업 : 산업, 산업혁명, 기술, 제조, 기계, 전자제품, 정보통신^□^■^⊕, 반도체, 화학, 바이오, 건설, 유통, 서비스, 에너지, 전기, 소재, 원소, 환경, 직업, 화폐, 금융, 금융사, 부동산, 부동산 거래, 부동산 정책, 아파트, 건물, 토지

정보통신	ICT • IT • 정보 • 정보기술 • 정보통신 • 통신 • 통신기술

정보통신기술	CPU • GPU • MP3 • OTP • P2P • PC • QR코드 • SI • SNS • 검색 • 검색엔진 • 검색포털 • 결제 • 공동인증서 • 네트워크 • 노트북 • 다운로드 • 단말기 • 데이터 • 데이터베이스(DB) • 데이터센터 • 도메인 • 동영상 • 디지털 • 로그 • 로그아웃 • 로그인 • 로봇 • 메모리 • 메신저 • 모바일 • 모바일앱 • 모바일웹 • 문자메시지 • 반도체 • 블로그 • 블록체인 • 사무자동화(OA) • 서버 • 소프트웨어 • 스마트폰 • 스트리밍 • 시스템통합(SI) • 아날로그 • 아이디 • 아이피(IP) • 암호 • 앱 • 업로드 • 운영체제(OS) • 웹 • 웹메일 • 웹브라우저 • 웹사이트 • 웹페이지 • 위키 • 이메일 • 인공지능(AI) • 인공지능 로봇 • 인터넷 • 인터넷게임 • 인터넷서비스 • 인터넷쇼핑 • 인터넷주소 • 전신 • 전자상거래 • 전화 • 채팅 • 챗봇 • 카페 • 컴퓨터 • 컴퓨터 프로그램 • 클라우드 • 클라이언트 • 태블릿 • 터미널 • 패스워드 • 패킷 • 포털 • 프로토콜 • 하드디스크 • 하드웨어 • 호스팅 • 홈페이지 • 휴대전화

한국 IT 회사	CJ올리브네트웍스 • GS ITM • SK C&C • 네이버 • ㈜당근마켓 • 대신정보통신㈜ • 라인㈜ • 롯데정보통신 • 메가존㈜ • 메가존클라우드 • 메타넷디지털 • 미라콤아이앤씨 • 배달의민족 • 삼성SDS • 신세계아이앤씨 • 쌍용정보통신 • 아이티센 • 야놀자 • 엔디에스(NDS) • 엔씨소프트 • 엘지CNS • 우아한형제들 • 이테크시스템 • 카카오 • 쿠팡 • 토스 • 포스코DX • ㈜한글과컴퓨터 • 한화시스템 • 현대IT&E • 현대오토에버

세계 IT 회사	AMD • ASML • IBM • SAP • TSMC • 구글 • 넷플릭스 • 마이크로소프트 • 메타 • 브로드컴 • 삼성전자 • 세일즈포스 • 아마존 • 알파벳 • 애플 • 야후 • 어도비 • 엔비디아(NVIDIA) • 오라클 • 오픈AI • 인텔 • 퀄컴 • 테슬라 • 텐센트 • 페이스북

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[.EB.8D.B0.EC.9D.B4.ED.84.B0_.EB.82.98.EB.AC.B4.EC.9C.84.ED.82.A4-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 〈데이터〉, 《나무위키》

[.EB.8D.B0.EC.9D.B4.ED.84.B0_.EC.A0.84.EC.B2.98.EB.A6.AC-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 〈데이터 전처리〉, 《수안실험실》

[1]

[2]

@@ 1번째 줄: / 1번째 줄: @@
 '''데이터'''(data)란 어떤 값을 포함하고 있는 가공되지 않은 1차 자료를 말한다. '데이타'가 아니라 '데이터'가 올바른 표기법이며,  '''자료'''(資料)라고도 한다.
-== 개요 ==
+== 어원 ==
+{{테두리|
+* '''데이터'''(data) : 어떤 값을 포함하고 있는 가공되지 않은 1차 자료를 말한다.
+* '''[[데이터베이스]]'''(database) : 데이터를 모아둔 집합이다. '''DB'''라고 한다.
+* '''[[데이터베이스 관리 시스템]]'''('''DBMS''', database management system) : [[데이터베이스]]를 체계적으로 관리하기 위한 [[시스템]]이다.
+* '''[[정보]]'''(情報, information) : 특정한 목적에 맞게 데이터를 정리하여 의미 있는 내용을 이끌어 낸 것을 말한다.
+}}
 '데이터' 혹은 '데이타' 등으로 불리거나 쓰이는데, 옛날에는 '데이타'로 많이 표기했고 외래어 표기법으로는 '데이타'가 맞으나, 현재는 '데이터'로 쓰인다. 국립국어원의 표준국어대사전에는 데이터로 표기했다. 영어권에서도 주요 사전에 실리는 발음은 여전히 /ˈdeɪtə/(데이타)이지만 21세기 들어와서 /ˈdætə/(다다) 또는 /ˈdɑːtə/(다타)라고 읽는 경우가 늘어나고 있다. [[구글]]에 data pronunciation(데이터 발음)을 검색해봐도 dayta가 맞는가 dahta가 맞는가 질문글이 많이 올라와 있다.<ref name="데이터 나무위키">〈[https://namu.wiki/w/데이터#fn-1 데이터]〉, 《나무위키》</ref><br>
@@ 13번째 줄: / 19번째 줄: @@
 == 연구방법론의 용어 ==
-연구에 직간접적으로 이용되는 일체의 자료이다. 어떤 연구의 결과가 얼마나 유용할지는 그 자료의 질적 적절성이 중요하다. 또한 연구에 필요한 정보들을 수집하는 과정을 가리켜서 자료수집이라고 부른다. 자료수집에는 사례연구법(case study), 질문지법(survey), 참여관찰법(observation/participation), 면접법(interview), 실험법(experiment) 등이 있다.
+연구에 직간접적으로 이용되는 일체의 자료이다. 어떤 연구의 결과가 얼마나 유용할지는 그 자료의 질적 적절성이 중요하다. 또한 연구에 필요한 정보들을 수집하는 과정을 가리켜서 자료수집이라고 부른다. 자료수집에는 사례연구법(case study), 질문지법(survey), 참여관찰법(observation/participation), 면접법(interview), 실험법(experiment) 등이 있다.<ref name="데이터 나무위키"></ref>
 <table border="1" align="center" tdalign="center" style="text-align:center;">
 <tr bgcolor="#B2EBF4">
@@ 20번째 줄: / 27번째 줄: @@
 <tr><td>통계 처리 쉽고 자료 분석 용이</td><td><font size=5><b>←</b></font> 질문 지법 <font size=5><b>→</b></font></td><td>문맹자에게 실시 곤란</td><tr>
 <tr>
-<td>과학적 연구 가능</td><td><font size=5><b>←</b></font>실험법<font size=5><b>→</b></font></td><td>윤리적 문제 발생</td>
+<td>과학적 연구 가능</td><td><font size=5><b>←</b></font> 실험법 <font size=5><b>→</b></font></td><td>윤리적 문제 발생</td>
 </tr>
 <tr>
-<td>깊이 있는 자료 수집</td><td><font size=5><b>←</b></font>면접법<font size=5><b>→</b></font></td><td>비용이 많이 들고 표본을 구하기 어려움</td>
+<td>깊이 있는 자료 수집</td><td><font size=5><b>←</b></font> 면접법 <font size=5><b>→</b></font></td><td>비용이 많이 들고 표본을 구하기 어려움</td>
 </tr>
 <tr>
-<td>현장강 있는 생생한 자료 수집</td><td><font size=5><b>←</b></font>참여 관찰법<font size=5><b>→</b></font></td><td>예상치 못했던 변수의 통제 곤란</td>
+<td>현장강 있는 생생한 자료 수집</td><td><font size=5><b>←</b></font> 참여 관찰법 <font size=5><b>→</b></font></td><td>예상치 못했던 변수의 통제 곤란</td>
 </tr>
 <tr>
-<td>시간과 공간의 제약 극복</td><td><font size=5><b>←</b></font>문헌 연구법<font size=5><b>→</b></font></td><td>문헌의 신뢰성이 낮으면 연구의 신뢰성이 떨어짐</td>
+<td>시간과 공간의 제약 극복</td><td><font size=5><b>←</b></font> 문헌 연구법 <font size=5><b>→</b></font></td><td>문헌의 신뢰성이 낮으면<br> 연구의 신뢰성이 떨어짐</td>
 </tr>
 </table>
@@ 38번째 줄: / 45번째 줄: @@
 # 특히 특정 개인을 대상으로 한 임상 장면에서 많이 사용
 # 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회 등이 이에 해당됨
-# 객관화된 자료이지만, 이용에 한계 존재
+# 객관화된 자료이지만, 이용에 한계 존재<ref name="데이터 전처리">〈[http://suanlab.com/assets/lectures/dp/01.pdf 데이터 전처리]〉, 《수안실험실》</ref>
 * O 자료: 관찰 데이터
 # 숙련된 관찰자 혹은 대상을 잘 아는 관계자, 친지 등이 제공하는 자료
 # 면접법, 참여관찰법 등을 통해 확보 가능
-# 주변 사람들의 증언이나 CCTV 영상 자료 역시 O-자료에 속함
+# 주변 사람들의 증언이나 CCTV 영상 자료 역시 O-자료에 속함<ref name="데이터 전처리"></ref>
 * T 자료: 검사 데이터
@@ 49번째 줄: / 56번째 줄: @@
 # 대중매체에서 과학자 인물들이 손에 들고 있는 도표들도 대부분 T-자료
 # 가장 객관적이고 질 좋은 자료이지만, 현실적으로 접해보기는 그다지 쉽지 않음
-# 자료를 확보하는 과정에서 연구윤리 문제 개입
+# 자료를 확보하는 과정에서 연구윤리 문제 개입<ref name="데이터 전처리"></ref>
 * S 자료: 자기보고 데이터
@@ 55번째 줄: / 62번째 줄: @@
 # 사람을 대상으로 하므로, 그 분야는 심리학이나 사회학 등에 한정될 수 밖에 없음
 # 매우 흔하게 접할 수 있는 자료로, 흔한 설문조사나 여론조사 등을 통해 얻어짐
-# "사람은 자신이 자신을 제일 잘 안다"는 전제에 기초해 있으며, 사회적 선망에 의해 답변이 왜곡될 수 있음
+# "사람은 자신이 자신을 제일 잘 안다"는 전제에 기초해 있으며, 사회적 선망에 의해 답변이 왜곡될 수 있음<ref name="데이터 전처리"></ref>
 == 컴퓨터의 용어 ==
-전산학, 컴퓨터공학에서가 아닌 컴퓨터 사용자들이 사용하는 용어로 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일을 데이터라고 부른다.
+전산학, 컴퓨터공학에서가 아닌 컴퓨터 사용자들이 사용하는 용어로 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일을 데이터라고 부른다.<br>
+데이터는 수치화된 크기/규모(magnitude), 개수(quantity), 문자, 또는 컴퓨터에 의해 해석되어 처리되거나 다른 기계, 다른 컴퓨터를 제어할 수 있는 명령어를 나타내는 심볼 등을 뜻하며, 보통 자기 저장매체([[플로피디스크]], [[하드디스크]], 카세트 테이프, 오픈릴 테이프, DAT, OMR카드 등), 메모리 저장체([[RAM]], [[ROM]], [[플래시 메모리]], [[SSD]] 등), 광학 저장매체(CD, DVD, 블루레이, OCR카드, 펀치카드 등), 기계적 저장매체 등에 저장되며 전기 신호의 형태로 전송될 수 있다. Datum은 특정 장소에 저장된 단일 값을 뜻한다.<ref name="데이터 나무위키"></ref>
+=== 디지털 데이터 ===
+디지털 데이터에서는, 디지털 시스템이기 때문에 당연히 최소 정보 구분 단위가 [[비트]](Bit)이지만, 실제로는 효율성과 편의성을 위해 입출력을 위한 최소 크기는 비트 8개의 모임인 [[바이트]](Byte)나, CPU가 한 번에 처리할 수 있는 [[워드]](Word) 단위가 된다.<ref name="데이터 나무위키"></ref>
+=== 프로그램 데이터 ===
+[[프로그램]]은 컴퓨터가 해석하여 실행할 수 있는 명령을 나타내는 심볼 데이터의 모임이다. 근본적으로 컴퓨터라는 기계는 데이터의 형태로 표현된 일련의 명령어에 따라 동작하도록 설계되었다. 사실상 프로그램에서 실행이 되는 명령어(코드)와 직접 실행이 되지 않는 부분이 저장되는 형태나 방식이 완전히 동일하다. 따라서 다른 기계나 컴퓨터를 제어할 때, 정보를 통신하는 방법이 하드웨어적으로 한 가지만 존재해도, 직접 실행되는 부분과 부가적인 부분이 동일하게 표현되기 때문에, 이론상으로는 문제 없이 이것들을 제어하는 프로그램을 만들 수 있다.<ref name="데이터 나무위키"></ref>
+=== 프로그래밍 데이터 ===
+[[프로그래밍]]에서 컴퓨터가 실행하는 명령어 부분을 Text라고 부르고, 프로그램이 참조하는 숫자 값, 이진 값, 또는 문자 값, 변수 등이 저장되는 부분을 Data라고 구분하기도 한다. [[어셈블리어]]나 [[유닉스]]에서 이와 같이 구분하는 것을 볼 수 있다.<ref name="데이터 나무위키"></ref>
+== 경영학의 용어 ==
+년대 이후 각광받고 있는 개념으로, 이 시대를 업계에서는 데이터의 시대라고 부르기도 하며, 일부는 산업혁명 4.0이라고 부르기도 한다.<ref name="데이터 나무위키"></ref>
+=== 데이터 유통 분야 ===
+* 데이터 팩토리(data factory)라는 새로운 개념의 회사들이 생겨났는데, 다른 말로는 데이터 뷰로(data bureau)라고 불리기도 한다.
+* 가치 있는 데이터들을 수집, 저장, 가공, 통합하여 재판매하는 일을 주로 하고 있다.
+* 엡실론(Epsilon), 액시엄(Acxiom), 이쿼팩스(Equifax)같은 회사들이 유명하다.
+* 국내에도 KCB, NICE, SK 지오비전, 네이버 등이 데이터 팩토리로 불릴 수 있다.<ref name="데이터 전처리"></ref>
+=== 금융 분야 ===
+* 데이터 생태계라 하여 콜렉터, 브로커, 유저로 나누어지는 순환구조를 가정
+* 데이터는 판매자가 과저 판매했던 데이터가 이후 특정 "사인(sign)"을 달고 판매자에게 되돌아오는 식으로 구성
+* 데이터 소비자는 구입한 데이터에 자신의 내부 데이터를 융합시켜서 활용되고,<br>그러한 경제활동을 통해서 데이터 판매자에게 가치 있는 데이터가 다시 전달되는 형태<ref name="데이터 전처리"></ref>
+== 데이터의 종류 ==
+=== 레코드 데이터 ===
+* 데이터 마이닝에서 가장 많이 사용되는 데이터 형태로 대개 flat 파일 형태로 저장된 데이터 세트
+* 레코드(Record)의 모음으로 구성
+* 각 레코드는 고정된 수의 속성으로 구성
+=== 트랜잭션 데이터 ===
+* 구매자와 구매 물품목록 형태로 이루어진 데이터 세트
+* 장바구니 데이터(Market Basket Data)라고도 불림
+=== 데이터 행렬 ===
+* 모든 속성이 수치 형태의 값을 가지는 행렬 형태의 데이터 세트
+* 일반적으로 데이터의 행은 개체, 열은 속성을 나타냄
+* 패턴 행렬(Patten Matrix)이라고도 불림
+=== 희박한 데이터 행렬 ===
+* 데이터 행렬의 특별한 경우
+* 문서의 경우에는 용어 벡터(term vector)형태로 표현 가능
+=== 그래프 데이터 ===
+* 데이터 개체 간의 관계나 데이터 자체를 그래프로 표현하는 경우에 사용하는 데이터 세트
+=== 순서 데이터 ===
+데이터 개체의 속성이 시간 또는 공간적인 순서와 연관되는 데이터 세트
+==== 연속 데이터 ====
+* 트랜잭션 데이터에서 시간 성분을 추가적으로 고려한 것
+* 고객의 시간에 따른 구매 경향 예측과 같은 응요에서 사용될 수 있음
+==== 서열 데이터 ====
+* 데이터 개체들 사이에 순서가 존재하는 데이터
+==== 시계열 데이터 ====
+* 연속 데이터의 특수한 경우
+* 시간에 따른 속성의 변화를 관찰한 데이터 집합
+==== 공간 데이터 ====
+* 위성 사진 분석 데이터와 같이 각 데이터 개체가 공간 상의 위치 정보와 연관이 되는 데이터 집합<br>예) 지구 상의 지점에 따른 온도
+== 빅데이터 ==
+[[빅데이터]]는 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 기존의 데이터는 일정한 형식에 맞게 정리하여 체계적으로 관리할 수 있었으나, [[소셜 네트워크 서비스]](SNS), [[자율주행 자동차]], 기타 각종 기계장치 등에서 생성된 방대한 양의 비정형 데이터는 새로운 접근 방법을 필요로 하게 되었다. 빅데이터는 기존의 [[오라클]](Oracle) 등 관계형 [[데이터베이스 관리 시스템]](RDBMS)으로는 분석이 어려워, 새로운 빅데이터 분석 도구가 필요하게 되었다. '빅데이타'가 아니라 '빅데이터'가 올바른 표기법이다.{{자세히|빅데이터}}
+{{각주}}
+== 참고 자료 ==
+* 〈[https://namu.wiki/w/%EB%8D%B0%EC%9D%B4%ED%84%B0#fn-1 데이터]〉, 《나무위키》
+* 〈[http://suanlab.com/assets/lectures/dp/01.pdf 데이터 전처리]〉, 《수안실험실》
+* 〈[https://terms.naver.com/entry.nhn?docId=1526260&cid=42171&categoryId=42176 데이터]〉, 《네이버 지식백과》
 == 같이 보기 ==
 * [[빅데이터]]
+* [[데이터베이스]]
+* [[데이터베이스 관리 시스템]]
+* [[정보]]
+{{데이터|검토 필요}}
+{{정보통신}}

위키원

이름공간

변수

보기

더 보기

검색