아파치 스파크 편집하기
최신판 | 당신의 편집 | ||
77번째 줄: | 77번째 줄: | ||
병렬 연산 적용 <ref> Jacob, 〈https://blog.naver.com/topchae91/221574921909〉, 《네이버 블로그》, 20189-07-01 </ref> | 병렬 연산 적용 <ref> Jacob, 〈https://blog.naver.com/topchae91/221574921909〉, 《네이버 블로그》, 20189-07-01 </ref> | ||
===속도=== | ===속도=== | ||
− | Spark는 하둡(Hadoop) 클러스터에서 애플리케이션을 실행할 수 있도록 도와주고, Work Load 실행속도가 100배나 향상이 된다. 스파크는 디스크로 읽기,쓰기 작업 수를 줄임으로써 가능하고, 중간 처리 데이터를 메모리에 저장하고 최첨단 DAG스케줄러, 쿼리 최적화 프로그램 및 물리적 실행엔진을 사용하여 배치 및 스트리밍 데이터에 대해 높은 | + | Spark는 하둡(Hadoop) 클러스터에서 애플리케이션을 실행할 수 있도록 도와주고, Work Load 실행속도가 100배나 향상이 된다. 스파크는 디스크로 읽기,쓰기 작업 수를 줄임으로써 가능하고, 중간 처리 데이터를 메모리에 저장하고 최첨단 DAG스케줄러, 쿼리 최적화 프로그램 및 물리적 실행엔진을 사용하여 배치 및 스트리밍 데이터에 대해 높은 성능 |
===여러 언어 지원=== | ===여러 언어 지원=== | ||
− | 스파크는 Java, Scala 또는 Python에 내장된 API를 | + | *스파크는 Java, Scala 또는 Python에 내장된 API를 제공 |
+ | *다른 언어로 응용 프로그램을 작성 가능 | ||
+ | *스파크는 대화식 쿼리를 위해 80 개의 고급 연산자를 제공<ref> 데프홍, 〈https://deafjwhong.tistory.com/84〉, 《티스토리》, 2019-03-18 </ref> | ||
===일반성=== | ===일반성=== | ||
− | SQL, 스트리밍 및 복잡한 분석을 | + | *SQL, 스트리밍 및 복잡한 분석을 결합 |
+ | *SQL과 DataFrames, 기계 학습을 위한 MLlib, GraphX 및 스파크 스트리밍을 포함한 여러 라이브러리에 전력을 공급 | ||
+ | *라이브러리는 동일한 응용 프로그램에서 원활하게 결합 | ||
===모든 범위에서 실행=== | ===모든 범위에서 실행=== | ||
− | 하둡(Hadoop), [[ApacheMesos]], [[Kubernetes]], 독립 실행형 또는 클라우드에서 | + | *하둡(Hadoop), [[ApacheMesos]], [[Kubernetes]], 독립 실행형 또는 클라우드에서 실행 |
+ | *다양한 데이터 소스에 액세스 실행 | ||
+ | *[[EC2]], [[HadoopYarn]], [[Mesos]]또는 [[Kubernetes]]에서 독립 실행형 클러스터 모드를 사용하여 실행 | ||
+ | *[[HDFS]], [[Alluxio]], [[Apache카산드라]], [[ApacheHBase]], [[Apache하이브]] 및 기타 수백개의 데이터 소스에 액세스 <ref> 아파치 스파크 공식홈페이지 - https://spark.apache.org/ </ref> | ||
==버전== | ==버전== |