일래스틱서치

개요

아파치 루신(Apache Lucene) 기반의 검색 엔진으로 모든 종류의 문서를 검색하는데 사용할 수 있다. 실기간 검색 기능뿐만 아니라 강력한 집계 기능을 제공해 실시간 분석 엔진으로도 활용이 가능하다.

특징

데이터를 저장할 수 있어 NoSQL 저장소로도 활용할 수 있다. 웹 서버나 데이터베이스(DB) 서버에 응용 프로그래밍 인터페이스(API)를 지원한다.

기본 용어

인덱스/타입/문서(index/type/document) : 일래스틱서치의 데이터 계층이다.
필드(field) : 일래스틱서치에서 문서는 JSON인데, JSON의 각 프로퍼티를 일래스틱서치에서 필드라 부른다.
매핑(mapping) : 인덱스/타입/문서의 규칙을 정의한 것이다.
색인(index) : 일래스틱서치가 문서를 검색할 수 있도록 색인 데이터를 만들어두는 과정이다.
색인(index) : 위 index의 명사형으로, 색인 작업을 거쳐 만들어진 색인 데이터를 의미한다.
클러스터/노드(cluster/node) : 여러 대의 서버를 묶어서 구동하기 위해 사용되는 개념이다. 각 서버가 노드, 서버의 묶음이 클러스터이다.
샤드/복사본(shard/replica) : 일래스틱서치는 색인 데이터를 하나의 물리적 데이터 공간에만 저장하는게 아니라, 여러 개의 저장공간에 나누거나 복사할 수 있다. 여기서 shard가 성능향상을 위해 데이터를 여러 물리적 공간에 나눠 저장하는 것이고, replica는 한 노드가 실패했을 때에도 검색서비스 제공이 가능하도록 데이터를 여러 물리적 공간 또는 노드에 복제해 두는 것이다.
QueryDSL : JSON으로 표현되는 일래스틱서치의 검색 문법이다.

설치 및 실행

자바 설치
일래스틱서치 설치

실행 옵션에는 보안, 메모리 설정, 분산환경(클러스터/노드) 설정 등이 포함되어 있지만 첫 사용시에는 설정을 바꾸지 않아도 무방하다.

한글 형태소 분석기 설치

일래스틱 서치는 한국어를 위한 분석기를 내장하고 있지 않다. 띄어쓰기만으로 단어를 분리할 경우 검색 품질이 매우 떨어지기 때문에 한국어 전용 분석기를 사용해야 한다. 일래스틱서치용으로 공개된 한글 형태소 분석기로는 은전한닢(MeCab-ko analyser)이 있다.

인덱스, 타입 준비(스키마 설정)

RDBMS의 스키마 설계에 대응하는 과정이다.

인덱스 설정

인덱스 설정에서 사용할 샤드와 복사본의 개수, 분석기 등을 설정할 수 있다.

타입 매핑

매핑을 만들어 두어야 매핑에 따라 색인이 만들어지므로 꼭 필요한 단계이다.

인덱스 생성

일래스틱서치 서버에 REST API로 요청을 보내 인덱스를 생성한다. 만일 인덱스를 미리 생성하지 않은 채로 문서를 입력할 경우, 서버가 문서의 내요을 참고해 인덱스와 매핑을 자동 생성한다.

문서 색인(삽입) 요청 보내기

문서를 삽입하면 앞에서 만든 매핑에 따라 색인이 생성된다. 문서를 삽입할 때는 문서 리소스 URL에 PUT 요청을 보내면 된다. 이때, 인덱스, 타입, 문서ID에 해당하는 문서가 존재하지 않으면 문서가 생성되고, 문서가 이미 존재하면 새 버전으로 갱신된다. 문서의 내용은 매핑에 따라 색인 처리되며, 색인 전의 본 내용도 저장되므로 _source 내장 필드를 통해 꺼낼 수 있다.

검색 요청 보내기

GET 요청을 문서 리소스 URL을 지정해 보내 문서를 조회할 수 있다.

사용 방법

일래스틱서치에서 데이터를 가져오는 방법은 다양하지만, 일래스틱 서치의 대시보드 어플리케이션인 '키바나(Kibana)'를 통해 가져오는 것이 가장 쉽고 편리하다.

키바나를 이용해 데이터를 가져오는 경우

키바나 쿼리를 이용해 원하는 데이터를 화면에 표시한다.
화면에 표시된 데이터가 실시간일 필요가 없는 경우 CSV로 데이터를 내보낸다.
실시간 데이터를 분석할 경우에는 현재 데이터를 볼 수 있는 쿼리(query DSL)를 생성해 직접 데이터를 요청하면 된다.

사용시 유의점

일래스틱서치를 검색 데이터에 활용하고 원본 데이터는 따로 보관한다.
River 보다는 Logstash 사용을 권장한다.
원본 데이터를 Logstash에 바로 입력 가능한 JSON 형식으로 저장해서 AWS의 S3같은 곳에 압축해서 보관한다.

서버 구성 시 유의점

1개의 노드에 할당하는 메모리는 30GB를 넘지 않도록 한다.
ES의 힙메모리 사이즈는 서버 전체 메모리의 50%가 넘지 않도록 한다.
HD 보다는 SSD에서 성능이 월등히 향상된다.

참고자료

<일래스틱서치>, <<네이버 지식백과>>, 2016-1220
<일래스틱서치>, <<위키백과>>, 2019-05-12
<엘라스틱서치 사용법>, <<김종민 블로그>>, 2015-04-24
<엘라스틱서치 기초 사용법>, <<박연오 블로그>>, 2016-06-03

같이 보기

루신

이 일래스틱서치 문서는 소프트웨어에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

개발 : 프로그래밍, 소프트웨어^□^■^⊕, 데이터, 솔루션, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

운영체제(OS)	데비안 • 도스(DOS) • 레드햇 리눅스(RHEL) • 리눅스 • 맥OS • 붉은별 • 비에스디(BSD) • 센트오에스(CentOS) • 솔라리스 • 아이오에스(iOS) • 안드로이드 • 에이아이엑스(AIX) • 엑스윈도우 • 엠에스도스(MS-DOS) • 오에스투(OS/2) • 우분투 • 운영체제(OS) • 윈도우 • 유닉스 • 유오에스(UOS) • 지엔유(GNU) • 타이젠 • 티맥스오에스 • 페도라 • 프리비에스디(FreeBSD)

웹서버	구글 웹서버 • 아이아이에스(IIS) • 아이플래닛 • 아파치 웹서버 • 엔진엑스 • 웹투비 • 웹티어

와스(WAS)	글래스피시 • 레진 • 와스서버 • 와일드플라이(제이보스) • 웹로직 • 웹스피어 • 제우스 • 톰캣

소프트웨어 개발 도구	JDK • SDK • 나모 웹에디터 • 넷빈즈 • 델파이 • 드림위버 • 메이븐 • 비주얼 스튜디오 • 안드로이드 스튜디오 • 알스튜디오 • 앱타나 스튜디오 • 엑스코드 • 이알윈(ERWin) • 이클립스 • 인텔리제이 아이디어 • 코드블럭스 • 통합개발환경(IDE) • 파워빌더 • 파이참

버전관리 도구	깃 • 깃허브 • 버전 • 버전관리 • 분산버전관리 • 서브버전(SVN) • 서브클립스 • 젠킨스 • 토터스SVN • 형상관리(구성관리)

성능관리 솔루션	로드러너 • 밸리데이터 • 스트로버스 • 시스마스터 • 엔그라인더 • 제니퍼 • 제이미터 • 지티메트릭스 • 쿨체크

소프트웨어	BaaS • CaaS • DaaS • FaaS • IaaS • NaaS • OaaS • PaaS • QaaS • RaaS • SaaS • SECaaS • UaaS • XaaS • 가상머신 • 개발 툴 • 내그웨어 • 다운그레이드 • 도네이션웨어 • 도커 • 레거시 시스템 • 레지스트리 • 로컬호스트 • 리팩토링 • 미들웨어 • 상용 소프트웨어 • 서버 • 셰어웨어 • 셸 • 소프트웨어 • 소프트웨어 개발 • 소프트웨어 툴 • 시스템 • 시스템 소프트웨어 • 실서버 • 업그레이드 • 업데이트 • 에뮬레이션 • 에뮬레이터 • 오픈소스 • 응용 소프트웨어 • 자바 가상머신 • 자유 소프트웨어 • 커널 • 컴퓨터과학 • 크로스 플랫폼 • 크리플웨어 • 테스트 툴 • 툴 • 툴킷 • 트라이얼웨어 • 패치 • 패키지 소프트웨어 • 프로세스 • 플랫폼 • 플러그인 • 프리웨어

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

위키원

이름공간

변수

보기

더 보기

검색