아파치 스파크 편집하기

이동: 둘러보기, 검색

경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 아이디(ID)으로 기록되고, 다른 장점도 있습니다.

편집을 되돌릴 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 저장해주세요.
최신판 당신의 편집
1번째 줄: 1번째 줄:
[[파일:아파치 스파크 로고.png|썸네일|200픽셀|'''아파치 스파크'''(Spark)]]
+
[[파일:스파크 로고.png|썸네일|200픽셀|'''스파크'''(Spark) 로고]]
[[파일:아파치 스파크 글자.png|썸네일|300픽셀|'''아파치 스파크'''(Spark)]]
+
[[파일:스파크 글자.png|썸네일|300픽셀|'''스파크'''(Spark) 로고와 글자]]
  
'''아파치 스파크'''<!--아파치스파크-->(Apache Spark)는 [[빅데이터]] 처리를 위한 [[오픈소스]] 병렬분산처리 플랫폼이다. 간략히 '''스파크'''(Spark)라고 한다. 영어로 "spark"는 불꽃이 튀기는 것을 말하는데, 대용량 데이터를 마치 불꽃이 튀기는 것처럼 순식간에 처리한다는 것을 강조하기 위해 붙인 이름이다. 스파크는 [[디스크]]에 저장되어 있는 [[데이터]]를 [[메모리]]로 읽어와서 처리하기 때문에 디스크 기반으로 작동하는 [[하둡]](Hadoop)에 비해 데이터 처리 속도가 최소 10배에서 100배 정도 빠르다. 대용량 데이터를 분산 처리하기 위해 여러 개의 메모리를 묶어서 마치 하나의 메모리인 것처럼 사용할 수 있다. [[머신러닝]]을 위한 빅데이터 처리에 주로 사용된다. [[SK㈜ C&C]]는 한국의 '스파크 사용자 모임'을 후원하고 있다.  
+
'''스파크'''(Spark)는 빅데이터 처리를 위한 [[오픈소스]] [[병렬분산처리]] [[플랫폼]]이다. 정식 이름은 '''아파치 스파크'''(Apache Spark)이다. 영어로 spark는 불꽃이 튀기는 것을 말하는데, 대용량 데이터를 마치 불꽃이 튀기는 것처럼 순식간에 처리한다는 것을 강조하기 위해 붙인 이름이다. 스파크는 [[디스크]]에 저장되어 있는 [[데이터]]를 [[메모리]]로 읽어와서 처리하기 때문에 디스크 기반으로 작동하는 [[하둡]](Hadoop)에 비해 데이터 처리 속도가 최소 10배에서 100배 정도 빠르다. 대용량 데이터를 분산 처리하기 위해 여러 개의 메모리를 묶어서 마치 하나의 메모리인 것처럼 사용할 수 있다. [[머신러닝]]을 위한 빅데이터 처리에 주로 사용된다. [[SK㈜ C&C]]는 한국의 '스파크 사용자 모임'을 후원하고 있다.  
  
 
==역사==
 
==역사==
150번째 줄: 150번째 줄:
 
*아파치 스파크는 파이썬, R과 같은 데이터 분석용으로 인기 있는 언어와 기업 친화적인 자바, 스칼라에 대한 바인딩을 제공함으로써
 
*아파치 스파크는 파이썬, R과 같은 데이터 분석용으로 인기 있는 언어와 기업 친화적인 자바, 스칼라에 대한 바인딩을 제공함으로써
 
애플리케이션 개발자부터 데이터 사이언티스트까지 그 확장성과 속도를 편리하게 이용할 수 있다.
 
애플리케이션 개발자부터 데이터 사이언티스트까지 그 확장성과 속도를 편리하게 이용할 수 있다.
*분산 처리 엔진의 복잡성 대부분을 간단한 메소드 호출 뒤로 숨긴다. → 간단해지는 코드
+
*분산 처리 엔진의 복잡성 대부분을 간단한 메서드 호출 뒤로 숨긴다. → 간단해지는 코드
 
*예시 : 고전적인 예는 문서의 단어 수를 세는 50줄에 가까운 맵리듀스 코드를 겨우 몇 줄의 아파치 스파크로 줄이는 코드이다.
 
*예시 : 고전적인 예는 문서의 단어 수를 세는 50줄에 가까운 맵리듀스 코드를 겨우 몇 줄의 아파치 스파크로 줄이는 코드이다.
 
===DB 호환===
 
===DB 호환===
158번째 줄: 158번째 줄:
 
==단점==
 
==단점==
 
데이터 셋이 적어서 단일 노드로 충분한 애플리케이션에서 스파크는 분산 아키텍처로 인해 오히려 성능이 떨어집니다. 또한 대량의 트랜잭션을 빠르게 처리해야 하는 애플리케이션은 스파크가 온라인 트랜잭션 처리를 염두에 두고 설계되지 않았기 때문에 유용하지 않다. <ref name="크크"></ref>
 
데이터 셋이 적어서 단일 노드로 충분한 애플리케이션에서 스파크는 분산 아키텍처로 인해 오히려 성능이 떨어집니다. 또한 대량의 트랜잭션을 빠르게 처리해야 하는 애플리케이션은 스파크가 온라인 트랜잭션 처리를 염두에 두고 설계되지 않았기 때문에 유용하지 않다. <ref name="크크"></ref>
 
 
{{각주}}
 
{{각주}}
  
 
==참고자료==
 
==참고자료==
* 아파치 스파크 공식홈페이지 - https://spark.apache.org/
+
*아파치 스파크 공식홈페이지 - https://spark.apache.org/
* Jacob, 〈https://blog.naver.com/topchae91/221574921909〉, 《네이버 블로그》, 2018-07-01
+
*Jacob, 〈https://blog.naver.com/topchae91/221574921909〉, 《네이버 블로그》, 2018-07-01
* kimsy1800, 〈https://kimsy1800.blog.me/221408518867〉, 《네이버 블로그》, 2018-11-29
+
*kimsy1800, 〈https://kimsy1800.blog.me/221408518867〉, 《네이버 블로그》, 2018-11-29
* 꽃경남, 〈https://kkn1220.tistory.com/124〉, 《티스토리》, 2017-04-07
+
*꽃경남, 〈https://kkn1220.tistory.com/124〉, 《티스토리》, 2017-04-07
* Eric Han's IT Blog Powered by Hexo, 〈[https://futurecreator.github.io/2018/08/14/apache-spark-basic/〉, 《IT BLOG》, 2018-08-14
+
*Eric Han's IT Blog Powered by Hexo, 〈[https://futurecreator.github.io/2018/08/14/apache-spark-basic/〉, 《IT BLOG》, 2018-08-14
* 데프홍,〈https://deafjwhong.tistory.com/84〉, 《티스토리》, 2019-03-18
+
*데프홍,〈https://deafjwhong.tistory.com/84〉, 《티스토리》, 2019-03-18
* 왈왈이, 〈https://real-programmer.tistory.com/10〉, 《티스토리》, 2019-01-07
+
*왈왈이, 〈https://real-programmer.tistory.com/10〉, 《티스토리》, 2019-01-07
  
 
== 같이 보기 ==
 
== 같이 보기 ==
176번째 줄: 175번째 줄:
 
* [[빅데이터]]
 
* [[빅데이터]]
  
{{솔루션|검토 필요}}
+
{{로고 필요}}
 +
{{프로그래밍|검토 필요}}

위키원에서의 모든 기여는 다른 기여자가 편집, 수정, 삭제할 수 있다는 점을 유의해 주세요. 만약 여기에 동의하지 않는다면, 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다 (자세한 사항은 위키원:저작권 문서를 보세요). 저작권이 있는 내용을 허가 없이 저장하지 마세요!

취소 | 편집 도움말 (새 창에서 열림)