데이터 편집하기

'''데이터'''(data)란 어떤 값을 포함하고 있는 가공되지 않은 1차 자료를 말한다. '데이타'가 아니라 '데이터'가 올바른 표기법이며,  '''자료'''(資料)라고도 한다.

== 어원
 ==
'데이터' 혹은 '데이타' 등으로 불리거나 쓰이는데, 옛날에는 '데이타'로 많이 표기했고 외래어 표기법으로는 '데이타'가 맞으나, 현재는 '데이터'로 쓰인다. 국립국어원의 표준국어대사전에는 데이터로 표기했다. 영어권에서도 주요 사전에 실리는 발음은 여전히 /ˈdeɪtə/(데이타)이지만 21세기 들어와서 /ˈdætə/(다다) 또는 /ˈdɑːtə/(다타)라고 읽는 경우가 늘어나고 있다. [[구글]]에 data pronunciation(데이터 발음)을 검색해봐도 dayta가 맞는가 dahta가 맞는가 질문글이 많이 올라와 있다.<ref name="데이터 나무위키">〈[https://namu.wiki/w/데이터#fn-1 데이터]〉, 《나무위키》</ref><br>

Data란 라틴어 단어 Datum의 복수형인 Data에서 유래했으며 라틴어에서 Datum의 뜻은 "present/gift, that which is give, debit"이다. 현재에서도 기본적으로 복수형 취금을 하나 가끔 하나의 고유명사화가 되어서 단수로 취급하는 경우도 있다.<ref name="데이터 나무위키"></ref>

== 용어 정의 ==
* 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료
* 관찰이나 실험, 조사로 얻은 사실이나 자료
* 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
* 데이터는 정보(information)가 아니고, 데이터를 가공해 얻은 것이 정보

== 연구방법론의 용어 ==
연구에 직간접적으로 이용되는 일체의 자료이다. 어떤 연구의 결과가 얼마나 유용할지는 그 자료의 질적 적절성이 중요하다. 또한 연구에 필요한 정보들을 수집하는 과정을 가리켜서 자료수집이라고 부른다. 자료수집에는 사례연구법(case study), 질문지법(survey), 참여관찰법(observation/participation), 면접법(interview), 실험법(experiment) 등이 있다.
<table border="1" align="center" tdalign="center" style="text-align:center;"> 
<tr bgcolor="#B2EBF4"> 
<td><font size=3><b>장  점</b></font></td><td><font size=3><b>자료 수집 방법</b></font></td><td><font size=3><b>단  점</b></font></td> 
</tr>  
<tr><td>통계 처리 쉽고 자료 분석 용이</td><td><font size=5><b>←</b></font> 질문 지법 <font size=5><b>→</b></font></td><td>문맹자에게 실시 곤란</td><tr>
<tr>
<td>과학적 연구 가능</td><td><font size=5><b>←</b></font> 실험법 <font size=5><b>→</b></font></td><td>윤리적 문제 발생</td>
</tr>
<tr>
<td>깊이 있는 자료 수집</td><td><font size=5><b>←</b></font> 면접법 <font size=5><b>→</b></font></td><td>비용이 많이 들고 표본을 구하기 어려움</td>
</tr>
<tr>
<td>현장강 있는 생생한 자료 수집</td><td><font size=5><b>←</b></font> 참여 관찰법 <font size=5><b>→</b></font></td><td>예상치 못했던 변수의 통제 곤란</td>
</tr>
<tr>
<td>시간과 공간의 제약 극복</td><td><font size=5><b>←</b></font> 문헌 연구법 <font size=5><b>→</b></font></td><td>문헌의 신뢰성이 낮으면<br> 연구의 신뢰성이 떨어짐</td>
</tr>
</table> 

=== 종류 ===
* L 자료: 생애 데이터
# 한 대상의 통상적 정보를 알 수 있는 자료
# 특히 특정 개인을 대상으로 한 임상 장면에서 많이 사용
# 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회 등이 이에 해당됨
# 객관화된 자료이지만, 이용에 한계 존재

* O 자료: 관찰 데이터
# 숙련된 관찰자 혹은 대상을 잘 아는 관계자, 친지 등이 제공하는 자료
# 면접법, 참여관찰법 등을 통해 확보 가능
# 주변 사람들의 증언이나 CCTV 영상 자료 역시 O-자료에 속함

* T 자료: 검사 데이터
# 실험적 절차를 거치거나 표준화된 검사를 통해 얻어진 데이터
# 대중매체에서 과학자 인물들이 손에 들고 있는 도표들도 대부분 T-자료
# 가장 객관적이고 질 좋은 자료이지만, 현실적으로 접해보기는 그다지 쉽지 않음
# 자료를 확보하는 과정에서 연구윤리 문제 개입

* S 자료: 자기보고 데이터
# 어떤 대상에 대한 정보를 얻을 때 그 대상에게 직접 물어보아 얻은 자료
# 사람을 대상으로 하므로, 그 분야는 심리학이나 사회학 등에 한정될 수 밖에 없음
# 매우 흔하게 접할 수 있는 자료로, 흔한 설문조사나 여론조사 등을 통해 얻어짐
# "사람은 자신이 자신을 제일 잘 안다"는 전제에 기초해 있으며, 사회적 선망에 의해 답변이 왜곡될 수 있음

== 컴퓨터의 용어 ==
전산학, 컴퓨터공학에서가 아닌 컴퓨터 사용자들이 사용하는 용어로 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일을 데이터라고 부른다.<br>
데이터는 수치화된 크기/규모(magnitude), 개수(quantity), 문자, 또는 컴퓨터에 의해 해석되어 처리되거나 다른 기계, 다른 컴퓨터를 제어할 수 있는 명령어를 나타내는 심볼 등을 뜻하며, 보통 자기 저장매체([[플로피디스크]], [[하드디스크]], 카세트 테이프, 오픈릴 테이프, DAT, OMR카드 등), 메모리 저장체([[RAM]], [[ROM]], [[플래시 메모리]], [[SSD]] 등), 광학 저장매체(CD, DVD, 블루레이, OCR카드, 펀치카드 등), 기계적 저장매체 등에 저장되며 전기 신호의 형태로 전송될 수 있다. Datum은 특정 장소에 저장된 단일 값을 뜻한다.<ref name="데이터 나무위키"></ref>

=== 디지털 데이터 ===
[[디지털 데이터]]에서는, 디지털 시스템이기 때문에 당연히 최소 정보 구분 단위가 [[비트]](Bit)이지만, 실제로는 효율성과 편의성을 위해 입출력을 위한 최소 크기는 비트 8개의 모임인 바이트(Byte)나, CPU가 한 번에 처리할 수 있는 워드(Word) 단위가 된다.<ref name="데이터 나무위키"></ref>

=== 프로그램 데이터 ===
[[프로그램]]은 컴퓨터가 해석하여 실행할 수 있는 명령을 나타내는 심볼 데이터의 모임이다. 근본적으로 컴퓨터라는 기계는 데이터의 형태로 표현된 일련의 명령어에 따라 동작하도록 설계되었다. 사실상 프로그램에서 실행이 되는 명령어(코드)와 직접 실행이 되지 않는 부분이 저장되는 형태나 방식이 완전히 동일하다. 따라서 다른 기계나 컴퓨터를 제어할 때, 정보를 통신하는 방법이 하드웨어적으로 한 가지만 존재해도, 직접 실행되는 부분과 부가적인 부분이 동일하게 표현되기 때문에, 이론상으로는 문제 없이 이것들을 제어하는 프로그램을 만들 수 있다.<ref name="데이터 나무위키"></ref>

=== 프로그래밍 데이터 ===
[[프로그래밍]]에서 컴퓨터가 실행하는 명령어 부분을 Text라고 부르고, 프로그램이 참조하는 숫자 값, 이진 값, 또는 문자 값, 변수 등이 저장되는 부분을 Data라고 구분하기도 한다. [[어셈블리어]]나 [[유닉스]]에서 이와 같이 구분하는 것을 볼 수 있다.

== 같이 보기 ==
* [[빅데이터]]