"R (프로그래밍 언어)"의 두 판 사이의 차이
(→기본 개념) |
|||
3번째 줄: | 3번째 줄: | ||
'''R(알)'''오픈 소스(Open Source) 프로그래밍 언어 중 하나로 양이 많은 정보(데이터)를 통계적 방법으로 분석할 때 쓰인다. 클라우드 컴퓨팅과 [[빅 데이터]](Big Data) 시대를 맞아 각광받는 추세이다. 페이스북, 트위터, 구글 등 인터넷을 주도하는 유명 기업이 고객 요구 사항을 분석할 때 R을 사용했다. 세계 R 프로그래머도 100만 명을 넘어선 것으로 알려졌다. 한국에는 제대로 안착하지 못했다. 2010년 하반기에 산업계의 관심사로 등장했으나 2년째 뚜력한 변화가 없다. 기존 통계 분석 도구(프로그램)을 대체할 만한 수요가 없어 눈에 띄는 적용 사례를 못한 까닭이다. 엔씨소프트와 몇몇 금융기업이 시험 적용해 봤을뿐이다. 오픈 소스 프로그램인 탓에 기술 지원과 유지보수 체계의 한계를 드러낸 것도 수요 확산에 적잖은 걸림돌이 됐다. | '''R(알)'''오픈 소스(Open Source) 프로그래밍 언어 중 하나로 양이 많은 정보(데이터)를 통계적 방법으로 분석할 때 쓰인다. 클라우드 컴퓨팅과 [[빅 데이터]](Big Data) 시대를 맞아 각광받는 추세이다. 페이스북, 트위터, 구글 등 인터넷을 주도하는 유명 기업이 고객 요구 사항을 분석할 때 R을 사용했다. 세계 R 프로그래머도 100만 명을 넘어선 것으로 알려졌다. 한국에는 제대로 안착하지 못했다. 2010년 하반기에 산업계의 관심사로 등장했으나 2년째 뚜력한 변화가 없다. 기존 통계 분석 도구(프로그램)을 대체할 만한 수요가 없어 눈에 띄는 적용 사례를 못한 까닭이다. 엔씨소프트와 몇몇 금융기업이 시험 적용해 봤을뿐이다. 오픈 소스 프로그램인 탓에 기술 지원과 유지보수 체계의 한계를 드러낸 것도 수요 확산에 적잖은 걸림돌이 됐다. | ||
== 기본 개념 == | == 기본 개념 == | ||
+ | R의 데이터 타입은 크게 숫자형, 문자형, 논리형 이렇게 3가지로 나뉜다. 이 데이터를 몇 가지 형태로 묶어내 다룰 수 있다. 데이터가 묶이는 형태는 집합과 유사한 벡터, 행렬인 매트릭스, 표의 형태를 가진 데이터 프레임, 이런 형태를 한데 묶을 수 있는 리스트가 있다. | ||
+ | *벡터 : 동일한 타입의 데이터를 1개 이상 저장해둔 형태를 말한다. 하나의 벡터에는 하나의 타입만 들어갈 수 있다. 벡터는 'c0'이라는 함수를 이용해 만들 수 있다. | ||
+ | *매트릭스 : 행과 열을 가지는 벡터이다. 벡터와 마찬가지로 같은 유형의 타입만 적용할 수 있다. 행렬의 데이터는 [행 번호,열 번호]의 형태로 접근하며 연산 수행도 가능하다. | ||
+ | *데이터 프레임 : 흔히 접할 수 있는 자료와 유사한 형태다. 엑셀의 표처럼 생겨 행렬처럼 행과 열의 길이가 일정하지만, 열마다 다른 형태의 자료를 담을 수 있다. 일반적으로 가장 많이 사용하는 형태의 데이터이다. | ||
+ | *리스트 : 위에서 설명한 각종 형태의 데이터를 한데 묶고자 할 때 쓴다. | ||
+ | |||
== 특징 == | == 특징 == | ||
*인터프리터 언어로 일반적으로 명령어 라인 인터프리터를 통해 실행 가능하다. | *인터프리터 언어로 일반적으로 명령어 라인 인터프리터를 통해 실행 가능하다. |
2019년 6월 27일 (목) 09:43 판
R(알)은 통계 계산과 그래픽을 위한 프로그래밍 언어이다. 1993년 뉴질랜드의 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)가 공동 개발하여, 자유 소프트웨어로 배포하였다.
개요
R(알)오픈 소스(Open Source) 프로그래밍 언어 중 하나로 양이 많은 정보(데이터)를 통계적 방법으로 분석할 때 쓰인다. 클라우드 컴퓨팅과 빅 데이터(Big Data) 시대를 맞아 각광받는 추세이다. 페이스북, 트위터, 구글 등 인터넷을 주도하는 유명 기업이 고객 요구 사항을 분석할 때 R을 사용했다. 세계 R 프로그래머도 100만 명을 넘어선 것으로 알려졌다. 한국에는 제대로 안착하지 못했다. 2010년 하반기에 산업계의 관심사로 등장했으나 2년째 뚜력한 변화가 없다. 기존 통계 분석 도구(프로그램)을 대체할 만한 수요가 없어 눈에 띄는 적용 사례를 못한 까닭이다. 엔씨소프트와 몇몇 금융기업이 시험 적용해 봤을뿐이다. 오픈 소스 프로그램인 탓에 기술 지원과 유지보수 체계의 한계를 드러낸 것도 수요 확산에 적잖은 걸림돌이 됐다.
기본 개념
R의 데이터 타입은 크게 숫자형, 문자형, 논리형 이렇게 3가지로 나뉜다. 이 데이터를 몇 가지 형태로 묶어내 다룰 수 있다. 데이터가 묶이는 형태는 집합과 유사한 벡터, 행렬인 매트릭스, 표의 형태를 가진 데이터 프레임, 이런 형태를 한데 묶을 수 있는 리스트가 있다.
- 벡터 : 동일한 타입의 데이터를 1개 이상 저장해둔 형태를 말한다. 하나의 벡터에는 하나의 타입만 들어갈 수 있다. 벡터는 'c0'이라는 함수를 이용해 만들 수 있다.
- 매트릭스 : 행과 열을 가지는 벡터이다. 벡터와 마찬가지로 같은 유형의 타입만 적용할 수 있다. 행렬의 데이터는 [행 번호,열 번호]의 형태로 접근하며 연산 수행도 가능하다.
- 데이터 프레임 : 흔히 접할 수 있는 자료와 유사한 형태다. 엑셀의 표처럼 생겨 행렬처럼 행과 열의 길이가 일정하지만, 열마다 다른 형태의 자료를 담을 수 있다. 일반적으로 가장 많이 사용하는 형태의 데이터이다.
- 리스트 : 위에서 설명한 각종 형태의 데이터를 한데 묶고자 할 때 쓴다.
특징
- 인터프리터 언어로 일반적으로 명령어 라인 인터프리터를 통해 실행 가능하다.
- 함수를 이용한 절차지향(procedural programming)뿐만 아니라 객체 지향 프로그래밍도 지원한다.
- 벡터, 배열, 행렬 등의 동적 데이터형 및 고차 함수, 고수준의 내장 함수 등을 기반으로 통계에 적합한 분석 환경을 제공한다.
- 행렬 등의 복잡한 데이터 구조에 최적화된 고속 임베디드 함수를 내장하고 있다.
- 빠른 계산이 요구되는 경우 외부 프로그램과 동적 링크가 가능하다.
- 데이터의 그래프, 플롯(plot) 기능 등 뛰어난 시각화 기능을 제공한다.
- 다른 통계 소프트웨어의 입출력 포맷 및 ODBC를 통한 각종 데이터베이스에 접근이 가능하며, 웹 등의 다양한 데이터 소스와의 연결 기능을 갖추고 있다.
- 명령의 문법이 단순하기 때문에 교육 및 실무 현장에서 모두 이용 가능하다.
사용시 유용한 패키지
참고 자료
같이 보기