[Elastic Search] 기본 개념과 특징(장단점)
검색엔진의 시초, Lucene
모든 검색엔진의 시초는 루씬(Lucene).
더그 커팅이 고안한 역색인(Inverted Index) 구조인 아파치 루씬을 기반으로 분산처리를 가능하게 한 아파치 솔라(Solr)가 등장해서 검색엔진 시장을 장악했고, 몇 년 후에 역시 루씬을 기반으로 한 Elastic Search가 등장해 지금은 검색엔진 분야에서 지배적인 위치에 있다.
ES와 RDBMS
조금 더 쉬운 개념 파악을 위해서 ES에서 사용되는 데이터 구조를 RDBMS에 대응해보면 다음과 같이 맵핑된다.
Elastic Search는 기본적으로 http 프로토콜로 접근이 가능한 REST API를 통해 데이터 조작을 지원한다. 이를 역시 RDBMS의 SQL과 맵핑해보면:
역색인
일반적인 DB에서는 볼 수 없는 개념인 ‘역색인'은 뭘까?
간단하게 컨셉만 훑어보면,
일반적인 색인의 목적은 ‘문서의 위치’에 대한 index를 만들어서 빠르게 그 문서에 접근하고자 하는 것인데, 역색인은 반대로 ‘문서 내의 문자와 같은 내용물’의 맵핑 정보를 색인해놓는 것이다.
역색인은 검색엔진과 같은 문서의 내용의 검색이 필요한 형태에서 전문 검색의 형태로 주로 쓰인다.
쉬운 예시로 들어보면 일반 색인(forward index)은 책의 목차와 같은 의미이고, 역색인(inverted index)은 책 가장 뒤의 단어 별 색인 페이지와 같다.
만약 DB에서 “Trade”라는 문구가 포함된 문자열을 찾으려고 한다면 SQL에서는 %Trade% 라고 명확히 입력해야 검색이 가능할 것이다. trade, TRADE, trAde…. 등의 문자열은 직접 하나하나 명시하기 전에는 찾을 수 없을 것이다. ES의 역색인을 활용하면 대소문자 구분 없이 어떤 문구가 들어와도 찾을 수 있다.
ES의 특징과 장단점
ES도 NoSQL의 일종으로 분류할 수 있고, 분산처리를 통해 실시간성으로 빠른 검색이 가능하다. 특히 기존의 데이터로 처리하기 힘든 대량의 비정형 데이터 검색이 가능하며 전문 검색(full text) 검색과 구조 검색 모두를 지원한다.
기본적으로는 검색엔진이지만 MongoDB나 Hbase와 같은 대용량 스토리지로도 활용이 가능하다.
ES의 장점과 단점에 대해서 간단히 살펴보자.
장점
- 오픈소스 검색엔진이다. 활발한 오픈소스 커뮤니티가 ES를 끊임없이 개선하고 발전시키고 있다.
- 전문검색
내용 전체를 색인해서 특정 단어가 포함된 문서를 검색할 수 있다. 기능별, 언어별 플러그인을 적용할 수 있다. - 통계 분석
비정형 로그 데이터를 수집하여 통계 분석에 활용할 수 있다. Kibana를 연결하면 실시간으로 로그를 분석하고 시각화할 수 있다. - Schemaless
정형화되지 않은 문서도 자동으로 색인하고 검색할 수 있다. - RESTful API
HTTP기반의 RESTful를 활용하고 요청/응답에 JSON을 사용해 개발 언어, 운영체제, 시스템에 관계없이 다양한 플랫폼에서 활용이 가능하다. - Multi-tenancy
서로 상이한 인덱스일지라도 검색할 필드명만 같으면 여러 인덱스를 한번에 조회할 수 있다. - Document-Oriented
여러 계층 구조의 문서로 저장이 가능하며, 계층 구조로된 문서도 한번의 쿼리로 쉽게 조회할 수 있다. - 역색인(Inverted Index)
- 확장성
분산 구성이 가능하다. 분산 환경에서 데이터는 shard라는 단위로 나뉜다.
단점
- 완전 실시간은 아니다.
색인된 데이터는 1초 뒤에나 검색이 가능하다. 내부적으로 commit과 flush같은 복잡한 과정을 거치기 때문. - Transaction Rollback을 지원하지 않는다.
전체적인 클러스터의 성능 향상을 위해 시스템적으로 비용 소모가 큰 롤백과 트랜잭션을 지원하지 않는다. 조심하자.. - 데이터의 업데이트를 제공하지 않는다.
업데이트 명령이 올 경우 기존 문서를 삭제하고 새로운 문서를 생성한다. 업데이트에 비해서 많은 비용이 들지만 이를 통해 불변성(Immutable)이라는 이점을 취한다.
ES 기본용어
- Index
데이터 저장 공간
하나의 물리 노드에 여러개 논리 인덱스 생성
하나의 인덱스가 여러 노드에 분산 저장 (M:N) - Shard
색인된 문서는 하나의 인덱스 — 인덱스 내부에 색인된 데이터는 여러개의 파티션으로 나뉘어 구성됨.
(파티션 = 샤드) - Type
인덱스의 논리적 구조
6.1부터 인덱스당 하나의 타입만 설정 가능(6.0 이하에서는 music 인덱스에서 rock, pop등 장르별로 분리하는데 타입을 사용할 수 있었음) - Document
데이터가 저장되는 최소 단위
JSON 포맷으로 저장
DB의 Row에 대응됨. - Field
문서를 구성하기 위한 속성
DB의 컬럼과 비교할 수 있음
하나의 필드는 목적에 따라 다수의 데이터 타입을 가질 수 있음 - Mapping
문서의 필드, 필드 속성을 정의하고 그에 따른 색인 방법을 정의하는 프로세스
스키마 정의 프로세스라고 보면 된다.
Node Types
- Master Node
클러스터 관리
노드 추가/제거 등 관리 - Data Node
- 실질적인 데이터 저장 : 데이터가 실제로 분산 저장되는 물리 공간인 샤드가 배치됨.
- 검색과 통계 등 데이터 관련 작업 수행 : 색인 작업은 CPU, 메모리, 스토리 등 컴퓨팅 리소스를 많이 소요하므로 리소스 모니터링이 필요함. - Coordinating Node
사용자의 요청만 받아서 처리.
클러스터 관련 요청은 마스터노드로, 데이터 관련 요청은 데이터 노드로 전달 - Ingest Node
문서의 전처리 담당
인덱스 생성 전 문서의 형식을 다양하게 변경할 수 있음
Cluster, Node, Shard
- 하나의 ES 클러스터는 인덱스의 문서를 조회할 때 마스터 노드를 통해 2개의 노드를 모두 조회해서 각 데이터를 취합한 후 결과를 하나로 합쳐서 제공한다.
- 여러개의 클러스터를 연결해서 구성할 수도 있다. 클러스터 내 노드는 실시간으로 추가, 제거 가능하다.
- 아래는 인덱스별로 샤드가 2개고 리플리카가 1개로 설정한 예시이다.
{
"settings" : {
"index" : {
"number_of_shards" : 2,
"number_of_replicas" : 1 }
}
}
위의 설정값이 서버에 적용되면 아래와 같은 형태가 된다.
초록색 네모는 Primary shard, 투명한 네모는 Replica이다.
a 인덱스를 예시로 보면, a0과 a1 두개의 shard로 구성되었으며, 이는 각각 node1과 node2에 저장되어 있다.
a0과 a1 shard의 replica는 각각 다른 node인 node4와 node3에 저장되어 있다.
ES 주요 API
- RESTful 방식의 API를 제공하며, 이를 통해 JSON 기반으로 통신한다.
- API 분류
- 인덱스 관리 API (Indices API)
- 문서 관리 API (Document API)
- 검색 API (Search API)
- 집계 API (Aggregation API) - Schemaless 지원 기능
- 인덱스의 존재 여부를 확인하고 인덱스가 존재하지 않는다면 문서를 분석해서 문서가 색인될 수 있도록 인덱스 자동 생성해주는 기능
- 자동 생성된 필드를 보면 모든 필드가 text 타입과 keyword 타입을 동시에 제공하는 멀티필드 기능으로 구성되는 경우가 많다 -> 데이터 공간의 낭비 초래.
- 단순히 문자열로 저장하고 싶은 경우 keyword. 형태소 분석을 원하는 경우 text 타입 사용.
- 대부분 데이터가 복잡한 구조를 가지므로 성능상 문제가 발생할 가능성이 커지므로 실무에서 쓰기 힘든 기능이다.
각 API는 별도로 직접 커맨드를 날려보는 것이 좋고, 혹은 실무에서 사용하게될 때는 어차피 문서를 뒤적거려야할 것이 분명하므로..
아래는 API별 눈에 띄는 특징들에 대해서만 정리했다.
인덱스 관리 API
- 인덱스 생성
인덱스 생성 시 맵핑이라는 세부설정을 이용할 수 있는데 맵핑은 문서와 문서에 포함된 필드, 필드 타입 등을 세세하게 지정하는 것이 가능한 설정 방식.
주의 : 한번 생성된 맵핑 정보는 변경할 수 없다. 잘못 생성했다면 데이터 삭제하고 다시 색인하는 수밖에 없다.
PUT /my-index-000001
{
"settings": {
"index": {
"number_of_shards": 3,
"number_of_replicas": 2
}
}
}
Document 관리 API ( = single document api)
- 실제 Documnent 조회, 수정, 삭제
기본적으로 search api를 제공하지만, 색인된 문서의 ID 기준으로 한건 한건의 문서를 다룰 경우 document 관리 api를 이용한다.
- index api : 한건의 문서를 색인
- get api : 조회
- delete api : 삭제
- update api : 업데이트 - multi-document api도 제공한다.
- multi get api : 다수 문서 조회 - ID 지정하지 않고 문서 생성도 가능?
- UUID를 통해 무작위 생성된다.
- 단 검색엔진은 DB와 주기적 동기화가 필요하므로 random 식별자로 사용한 경우 DB 맵핑을 위해 별도의 룩업테이블이 필요함. 따라서 처음에 생성할 때 부터 DB의 식별자와 맞춰주는 것이 중요하다.
POST my-index-000001/_doc/
{
"@timestamp": "2099-11-15T13:12:00",
"message": "GET /search HTTP/1.1 200 1070000",
"user": {
"id": "kimchy"
}
}
검색 API
- 검색 API 사용방식은 크게 두가지
- HTTP URI 형태의 파라미터를 URI에 추가해 검색
- RESTful API 방식인 Query DSL
(RESTful Request 방식이 URI 방식보다 제약사항이 적으므로 더 선호됨)
GET /my-index-000001/_search
{
"query": {
"term": {
"user.id": "kimchy"
}
}
}
집계 API
- 버킷 구조 안에 다른 그룹화된 데이터가 포함돼 있다. → 집계 API가 강력한 이유중 하나 : 버킷 안에 다른 버킷의 결과를 추가할 수 있다. 다양한 집계 유형을 결합, 중첩, 조합이 가능
더 알아보기
엘라스틱서치에서 최적의 샤드를 설정하는 기준에 대해서 알아본 글:
[샤드의 개수와 크기는 어떻게 정할까?]
Reference
엘라스틱서치 실무 가이드(2019), 위키북스
위키북스의 [엘라스틱서치 실무가이드]를 교재로 팀원들과 스터디한 내용 중 기본 개념과 특징 부분에 대해서 정리했습니다.
수많은 책 중 엘라스틱서치 실무가이드를 선택한 이유는, 버전이 올라감에 따라 변경사항이 꽤 큰 엘라스틱서치 특성 상 가장 최근에 발간(2019)되었고, 우리가 ES 클러스터를 운영하는데 필요한 ES 클러스터 운영 중심의 팁이 많이 담겨있다는 점을 주요하게 고려했습니다.