맵리듀스

구글(Google)

맵리듀스(MapReduce)는 구글(Google)에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크이다.

개요

맵리듀스(MapReduce)는 2004년 구글에서 대용량 데이터를 분산처리하기 위해 발표한 대용량 분산 처리 프레임워크이다. 이 프레임워크는 테라바이트 또는 페타바이트 이상의 대용량 데이터를 저렴한 x86 서버를 클러스터링해 분산 처리한다. 맵리듀스에서 데이터를 처리하는 기본 단위는 매퍼(Mapper)와 리듀스(Reduce)다. 많은 양의 데이터를 맵리듀스 형태로 작성하면, 클러스터링 환경에서 효과적으로 분산 처리할 수 있다. 맵리듀스의 핵심은 입력과 출력이며, Key와 Value로 구성된다. 맵(Map)은 산재된 데이터를 키와 밸류 형태로 연관성이 있는 데이터로 묶는 작업을 하며, 리듀스는 맵 작업 결과에서 중복 데이터를 제거한 후 원하는 데이터를 추출하는 작업을 수행한다.^[1]

알고리즘

맵리듀스의 논리적 데이터 처리 절차는 다음과 같다.

1단계

혼재된 각종 데이터 세트를 각각 키와 밸류 쌍으로 묶어서 Map 함수의 입력 값으로 보내는 단계다. 전송된 데이터 세트를 Map을 통해 필요한 분석 대상만을 각각 추출한 후 필요 없거나 잘못된 레코드를 제거하는 작업을 한다. 예를 들어 대용량 로그 파일은 SAM 파일 형태로 생성되거나 실시간으로 발생하는 경우가 대부분이다. 파싱 작업을 통해 원하는 형태로 데이터를 가공하는데, 이러한 작업을 효과적으로 할 수 있는 것이 바로 맵리듀스다.

2단계

1단계 작업이 완료되면, 분석 대상 값만을 추출한다. 추출된 분석 대상 데이터를 키-밸류 형태로 정렬해 Reduce에게 보낸다. 전송된 데이터는 Reduce 함수의 입력 값으로 사용된다.

3단계

Reduce 함수로 2단계에서 받은 입력값을 분석해 원하는 값을 구하는 단계다. 다시 말하면, Map은 산재된 입력 데이터를 원하는 형태의 데이터와 묶어주는 작업을 통해 Repository 데이터 형태를 띄게 된다. 이 단계에서는 리듀스를 통해 (중복된 값을 제거해) 원하는 데이터만 추출하는 작업을 진행한다.^[1]

장단점

장점

단순하고 사용이 편리하다
특정 데이터 모델이나 스키마, 질의에 의존적이지 않은 유연성이 있다.
저장 구조의 독립성이 있다.
데이터 복제에 기반한 내구성과 재수행을 통한 내고장성을 확보한다.
높은 확장성을 가지고 있다.

단점

단일 데이터 흐름이 고정적이다.
기존 DBMS보다 스키마와 질의가 불편하다.
스케줄링이 단순하다.
DBMS와 비교하여 상대적으로 성능이 낮다.
개발도구의 불편함과 기술지원에 있어서 어려움이 있다.^[2]

각주

↑ ^1.0 ^1.1 디비가이드넷,〈맵리듀스〉
↑ SungWook Kang,〈맵리듀스 개념〉, 2013-10-28

참고자료

같이 보기

이 맵리듀스 문서는 솔루션에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.

개발 : 프로그래밍, 소프트웨어, 데이터, 솔루션^□^■^⊕, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

솔루션	CMS • CRM • DRM • ERP • HMS • LCMS • LMS • PMS • SCM • VOC • 그룹웨어 • 모니터링 솔루션 • 솔루션 • 웹빌더 • 위키 • 지식관리시스템(KMS) • 커스터마이징 • 패키지 소프트웨어 • 패키지 제품

프레임워크	넥스코어 • 노드제이에스(node.js) • 닷넷(.NET) • 라프제이(Laf/J) • 레일즈 • 마이바티스(MyBatis) • 맵리듀스 • 스트럿츠 • 스프링 프레임워크 • 아두이노 • 아이바티스(iBatis) • 아파치 스파크 • 애니프레임 • 앵귤러제이에스(Angular.js) • 에이에스피닷넷(ASP.NET) • 인텔리제이 아이디어(IntelliJ IDEA‎) • 장고 • 전자정부 표준 프레임워크 • 하둡 • 하이버네이트

콘텐츠관리시스템	iCS • 드루팔 • 아사프로 • 오픈웍스 • 워드프레스 • 윅스 • 줌라 • 지니웍스 • 콘텐츠와이즈 • 홈스토리 • 홍익인간

홈페이지 솔루션	GPKI • LBS • PKI • 게시판 • 공인인증서 • 구글 애널리틱스 • 구글 애드센스 • 그누보드 • 네이버 애널리틱스 • 넷퍼넬 • 달력 • 대댓글 • 댓글 • 덱스트업로드 • 방명록 • 블로그 • 비즈니스 애널리틱스 • 선플 • 설문조사 • 소셜로그인 • 스킨 • 아이핀 • 악플 • 에이스카운터 • 웹로그 • 위젯 • 익스프레스엔진(제로보드XE) • 인증 • 접속통계 • 제로보드 • 지핀(G-PIN) • 카운터 • 커뮤니티 • 테크노트 • 투표 • 파일업로드 • 회원관리

이메일 솔루션	깨비메일 • 메일플러그 • 썬더메일 • 에어즈락메일

쇼핑몰 솔루션	고도몰 • 굿모닝샵 • 메이크샵 • 카페24 쇼핑몰 • 퍼스트몰 • 후이즈몰

동영상 솔루션	1그램플레이어 • 5K플레이어 • ACG플레이어 • KM플레이어 • VLC미디어플레이어 • 곰플레이어 • 디코더 • 와우자 • 웹엑스 • 인코더 • 코덱 • 코디 • 팟플레이어

검색 솔루션	검색 • 검색엔진 • 독크루저 • 레피아 • 루씬 • 마리너 • 미르서치 • 서치포뮬러원 • 아이트리니티 • 엑스텐 • 엑스퍼서치 • 일래스틱서치

리포팅툴	사이냅 • 알메이트차트 • 오즈리포트 • 유비리포트 • 차트 • 크로닉스리포트(리포트 디자이너) • 클립리포트(렉스퍼트)

BI 솔루션	BI • BI매트릭스 • OLAP • 옥타곤 • 코그너스 • 태블로

연계 솔루션	메심 • 비즈위버 • 웹크롤러 • 이크로스 비즈아이 스위트 • 인디고 • 코어브릿지 • 크롤러 • 프로버스

데이터 솔루션	BTL 데이터 인테그레이터 • ETL 솔루션 • 딥솔루션 • 아이샤크 • 이노쿼츠 • 인포매티카 • 탈렌드 • 탈렌드 오픈스튜디오 • 테라스트림

자료공유 솔루션	구글 드라이브 • 나스 • 드롭박스 • 시놀로지 나스 • 원드라이브 • 웹하드

그룹웨어	거래처 관리 • 구글 워크스페이스 • 근태관리 • 노츠 • 노트 • 다우오피스 • 다이렉트 클라우드 • 더존 솔루션 • 메일플러그 • 브레인스톰 • 비즈메카 • 엘지 유플러스 그룹웨어 • 연락처 • 연락처 관리 • 오피스365 • 온타임 • 웍스모바일 • 위하고 • 인사관리 • 일정관리 • 전자결재 • 지스위트 • 지투웍스 • 코디네이터 • 팀포커스 • 하이웍스 • 핸디 • 헬로윈

클라우드 솔루션	오픈네뷸라 • 오픈스택 • 유칼립투스 • 클라우드스택 • 클라우드잇

지도 솔루션	구글 지도 • 네이버 지도 • 바이두 지도 • 지도 • 지도 API • 카카오 지도 • 티맵

모바일 솔루션	모피어스

기타 솔루션	딥오씨알 • 리무트콜 • 스카우터 • 알서포트

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[mapreduce_main-1] 1.0 ^1.1 디비가이드넷,〈맵리듀스〉

[mapreduce_main2-2] SungWook Kang,〈맵리듀스 개념〉, 2013-10-28

[1]

[2]

위키원

이름공간

변수

보기

더 보기

검색

맵리듀스

목차

개요

알고리즘

장단점

각주

참고자료

같이 보기