"동적샤딩"의 두 판 사이의 차이
16번째 줄: | 16번째 줄: | ||
# 데이터를 재배치 하게 되면, 로케이터 서비스의 샤드키 테이블도 일치시켜줘야 한다. | # 데이터를 재배치 하게 되면, 로케이터 서비스의 샤드키 테이블도 일치시켜줘야 한다. | ||
# 로케이터가 성능을 위해 캐시 하거나 재배치를 하면, 잘못된 라우팅을 통해 데이터를 찾지 못하고 에러가 발생하며, 로케이터에 의존할 수 밖에 없다.<ref name="네소이"></ref> | # 로케이터가 성능을 위해 캐시 하거나 재배치를 하면, 잘못된 라우팅을 통해 데이터를 찾지 못하고 에러가 발생하며, 로케이터에 의존할 수 밖에 없다.<ref name="네소이"></ref> | ||
+ | |||
+ | * '''동적샤드 등록''' | ||
+ | : 동적 샤드 등록에서 샤드는 추적 프로세스의 일부로 등록되어 인덱스를 형성하므로 솔러(Solr)노드에서 수동 샤드 분배 패턴을 따를 필요가 없다. 수동샤딩과 달리 동적샤딩에는 샤드 및 인스턴스를 알려진 호스트 집합에 올바르게 분산시킬 필요가 없다. 퀴리는 탄력적이며, 인스턴스에 대해 구성 가능한 지연이 발생한다. 수동샤딩의 경우 모든 인스턴스는 예상 URL의 예상 URK에서 사용 가능해야 한다. 동적 샤드 등록은 샤드마다 다른 수의 인스턴스를 허용하지만 수동샤딩은 그렇지 않다. 동적 샤딩을 사용하려면 ''alfresco-global.properties'' 파일에서 다음 특성을 설정한다. | ||
+ | solr . useDynamicShardRegistration = true | ||
+ | : 그런다음 속성은 퀴리에 선택된 인스턴스를 제어한다. | ||
+ | search . solrShardRegistry . purgeOnInit = true를 | ||
+ | search . solrShardRegistry . shardInstanceTimeoutInSeconds = 300 | ||
+ | search . solrShardRegistry . maxAllowedReplicaTxCountDifference = 1000 | ||
+ | |||
+ | :{|class=wikitable width=600 | ||
+ | |+ | ||
+ | !align=center|속 성 | ||
+ | !align=center|기 술 | ||
+ | !align=center|예 | ||
+ | |- | ||
+ | |align=center|search.solrShardRegistry. | ||
+ | purgeOnInit | ||
+ | |align=center|사실인 경우이 특성은 서브 시스템이 시작될 때 데이터베이스에서 지속된 샤드 상태를 제거한다. | ||
+ | |align=center|사실 | ||
+ | |- | ||
+ | |align=center|search.solrShardRegistry. | ||
+ | shardInstanceTimeoutInSeconds | ||
+ | |align=center|이 시간내에 샤드가 추적 요청을 하지 않으면 쿼리에 사용되지 않도록 지정한다. 큰 변경 세트를 추적하거나 색인을 다시 빌드 할 때 샤드 제한 시간을 늘린다. 예를들어 이 속성 값을 3200 또는 7200초로 변경한다. | ||
+ | |align=center|300초 | ||
+ | |- | ||
+ | |align=center|search.solrShardRegistry. | ||
+ | maxAllowedReplicaTxCountDifference | ||
+ | |align=center|샤드가 선행 인스턴스 뒤의 이 트랜잭션 수보다 많은 경우 사용되지 않도록 지정한다. | ||
+ | |align=center|1000건의 거래 | ||
+ | |} | ||
+ | : 상점에 대해 둘 이상의 인덱스가 있는 경우 최신 인덱스, 대부분의 트랜잭션을 인덱스 한 인덱스가 사용된다. 각 샤드에 대해 인스턴스는 적극적으로 추적하고 리드 인스턴스의 1000개 트랜잭션 내에있는 모든 샤드에서 임의로 선택된다. 샤드는 다음과 같은 경우에 동일한 색인의 일부로 간주된다. | ||
+ | # 같은 매장을 추적 | ||
+ | # 동일한 템플릿을 사용하므로 솔러 스키마 | ||
+ | # 샤드 수가 동일하다. | ||
+ | # 필요한 경우에 도일한 구성으로 동일한 파티션 방법을 사용한다. | ||
+ | # 콘텐츠를 변형 하거나 무시하는 동일한 설정 | ||
+ | |||
+ | http : // localhost : 8080 / solr4 / admin / cores? action = newCore & storeRef = workspace : // SpacesStore & numShards = 10 & | ||
+ | numNodes = 1 & nodeInstance = 1 & property . data . dir . root = < ALFRESCO_HOME > / solr4 / workspace - SpacesStore & shardIds = 0 , 1 , 2 , 3 , 4 | ||
+ | : 동적샤딩에서 수동샤딩과 동일한 API를 사용하여 샤드를 만들거나 필요한 샤드를 쉼표로 구분된 목록으로 나열할 수 있다. 샤드 ID. 사용 가능한 모든 인덱스, 샤드 및 인스턴스의 상태는 JMX를 클라이언트를 사용하여 찾을 수 있다. 동적샤딩은 현재 부분 인덱스를 사용하여 쿼리에 응답하고, 예를들어 샤드1과 샤드2의 두 샤드가 있는데 샤드2에 대한 인스턴스가 없으면 쿼리는 샤드1만 사용한다.<ref>알프레스코 공식 홈페이지 - https://docs.alfresco.com/5.1/concepts/dynamic-sharding.html </ref> | ||
== 활용 == | == 활용 == | ||
29번째 줄: | 69번째 줄: | ||
==참고자료== | ==참고자료== | ||
+ | * 알프레스코 공식 홈페이지 - https://docs.alfresco.com/5.1/concepts/dynamic-sharding.html | ||
* 처음처럼, 〈[https://cobak.co.kr/community/1/post/169013 타블록체인 샤딩과 로커스체인의 다이나믹샤딩의 차이?]〉, 《코박》, 2019-05-01 | * 처음처럼, 〈[https://cobak.co.kr/community/1/post/169013 타블록체인 샤딩과 로커스체인의 다이나믹샤딩의 차이?]〉, 《코박》, 2019-05-01 | ||
* RASTA LION, 〈[http://rastalion.me/archives/778 샤드와 샤딩 (Shard and Sharding)]〉, 《개인블로그》, 2019-08-27 | * RASTA LION, 〈[http://rastalion.me/archives/778 샤드와 샤딩 (Shard and Sharding)]〉, 《개인블로그》, 2019-08-27 |
2019년 9월 26일 (목) 13:10 판
동적샤딩(Dynamic sharding)
개요
특징
네이밍(Naming) 그대로 동적으로 바꿀수 있는데, 로케이터 서비스를 통해 샤드 키를 얻는다. 클러스터에 노드가 증가하거나 감소해도 로케이터 스비스에 샤드 키만 추가하면 되며, 기존 데이터의 샤드 키 변경은 없기 때문에 확장에 유연한 구조이다. 데이터를 재배치하게 되면 로케이터 서비스의 샤드 키 테이블도 일치시켜줘야 한다. 로케이터가 성능을 위해 캐시(Cache)하거나 복제(Replication)를 하면 잘못된 라우팅을 통해 데이터를 찾지 못하고 에러가 발생한다. 로케이터에 의존할 수 밖에 없는 단점이 있다. 키 값(Key-Value)이 아닌 다양한 객체들로 구성되는 경우도 있다. 관계형 데이터베이스 관리 시스템(RDBMS)의 조인(join), 인덱스(index), 트랜잭션을 사용함으로써 어플리케이션의 복잡도를 줄일수 있다. 이와 유사한 방법으로 샤딩하는 방법이 엔티티 그룹(Entity Group)이다. 하나의 물리적인 샤드에 쿼리를 진행한다면 효율적이며, 하나의 샤드에서 강한 응집도를 가질 수 있어 데이터는 자연스럽게 사용자별로 분리되어 저장되고, 사용자가 늘어남에 따라 확장성이 좋은 파티셔닝이다. 반대로 크로스 파티션 쿼리는 단일 파티션 쿼리보다 일관성의 보장과 성능을 보장하지 않는다. 그렇기 때문에 이런 쿼리들이 자주 실행하지 않도록 만들어야 한다.[1]
- 장점
- 네이밍 그대로 동적으로 바꿀수 있다.
- 로케이터 서비스를 통해 샤드키를 얻는다.
- 클러스터가 포함하는 노드 개수를 늘리면, 로케스터 서비스에 샤드 키를 추가만하고, 기존의 데이터 샤드키는 변경이 없으며, 확장에 유연한 구조이다.
- Example : HDFS - Name Node, MongoDB - ConfigServer[2]
- 단점
- 데이터를 재배치 하게 되면, 로케이터 서비스의 샤드키 테이블도 일치시켜줘야 한다.
- 로케이터가 성능을 위해 캐시 하거나 재배치를 하면, 잘못된 라우팅을 통해 데이터를 찾지 못하고 에러가 발생하며, 로케이터에 의존할 수 밖에 없다.[2]
- 동적샤드 등록
- 동적 샤드 등록에서 샤드는 추적 프로세스의 일부로 등록되어 인덱스를 형성하므로 솔러(Solr)노드에서 수동 샤드 분배 패턴을 따를 필요가 없다. 수동샤딩과 달리 동적샤딩에는 샤드 및 인스턴스를 알려진 호스트 집합에 올바르게 분산시킬 필요가 없다. 퀴리는 탄력적이며, 인스턴스에 대해 구성 가능한 지연이 발생한다. 수동샤딩의 경우 모든 인스턴스는 예상 URL의 예상 URK에서 사용 가능해야 한다. 동적 샤드 등록은 샤드마다 다른 수의 인스턴스를 허용하지만 수동샤딩은 그렇지 않다. 동적 샤딩을 사용하려면 alfresco-global.properties 파일에서 다음 특성을 설정한다.
solr . useDynamicShardRegistration = true
- 그런다음 속성은 퀴리에 선택된 인스턴스를 제어한다.
search . solrShardRegistry . purgeOnInit = true를 search . solrShardRegistry . shardInstanceTimeoutInSeconds = 300 search . solrShardRegistry . maxAllowedReplicaTxCountDifference = 1000
속 성 기 술 예 search.solrShardRegistry. purgeOnInit
사실인 경우이 특성은 서브 시스템이 시작될 때 데이터베이스에서 지속된 샤드 상태를 제거한다. 사실 search.solrShardRegistry. shardInstanceTimeoutInSeconds
이 시간내에 샤드가 추적 요청을 하지 않으면 쿼리에 사용되지 않도록 지정한다. 큰 변경 세트를 추적하거나 색인을 다시 빌드 할 때 샤드 제한 시간을 늘린다. 예를들어 이 속성 값을 3200 또는 7200초로 변경한다. 300초 search.solrShardRegistry. maxAllowedReplicaTxCountDifference
샤드가 선행 인스턴스 뒤의 이 트랜잭션 수보다 많은 경우 사용되지 않도록 지정한다. 1000건의 거래
- 상점에 대해 둘 이상의 인덱스가 있는 경우 최신 인덱스, 대부분의 트랜잭션을 인덱스 한 인덱스가 사용된다. 각 샤드에 대해 인스턴스는 적극적으로 추적하고 리드 인스턴스의 1000개 트랜잭션 내에있는 모든 샤드에서 임의로 선택된다. 샤드는 다음과 같은 경우에 동일한 색인의 일부로 간주된다.
- 같은 매장을 추적
- 동일한 템플릿을 사용하므로 솔러 스키마
- 샤드 수가 동일하다.
- 필요한 경우에 도일한 구성으로 동일한 파티션 방법을 사용한다.
- 콘텐츠를 변형 하거나 무시하는 동일한 설정
http : // localhost : 8080 / solr4 / admin / cores? action = newCore & storeRef = workspace : // SpacesStore & numShards = 10 & numNodes = 1 & nodeInstance = 1 & property . data . dir . root = < ALFRESCO_HOME > / solr4 / workspace - SpacesStore & shardIds = 0 , 1 , 2 , 3 , 4
- 동적샤딩에서 수동샤딩과 동일한 API를 사용하여 샤드를 만들거나 필요한 샤드를 쉼표로 구분된 목록으로 나열할 수 있다. 샤드 ID. 사용 가능한 모든 인덱스, 샤드 및 인스턴스의 상태는 JMX를 클라이언트를 사용하여 찾을 수 있다. 동적샤딩은 현재 부분 인덱스를 사용하여 쿼리에 응답하고, 예를들어 샤드1과 샤드2의 두 샤드가 있는데 샤드2에 대한 인스턴스가 없으면 쿼리는 샤드1만 사용한다.[3]
활용
로커스체인
로커스체인(Locus Chain)은 샤드 수 만큼 네트워크 사용량과 스토리지 사용량을 나누고, 고유의 알고리즘으로 샤드 간 균형을 지속적으로 유지하는 동적 샤딩이다. 계정 단위로 샤드를 재배치하여 샤드의 수와 사이즈, 밸리데이터 비율 등을 조절하는 동적 샤딩으로, 동적 샤딩은 로커스체인이 어카운트 별 트랜잭션 체인을 갖는 AWTC 원장 구조이기 때문에 보다 용이하게 구현이 가능하여, 애초에 샤딩을 실현하기 위해 채택한 구조이다. 로커스체인은 모든 사용자가 모바일과 같은 작은 기기로도 네트워크에 노드로 참여하고, 그로 인해 높은 탈중앙화를 이룰 수 있도록 노드가 부담해야 하는 자원요구량 네트워크 대역폭 소모, 원장 용량 차지을 최소한으로 낮추고자 다이나믹 샤딩을 적용했다. 이중 네트워크 샤딩은 네트워크를 여러 샤드로 나눠 같은 샤드에 속한 노드들끼리 메시지를 주고 받도록 하는 것인데, 메시지를 주고 받아야 하는 영역 자체가 쪼개진 셈으로 이때 샤드를 나누는 기준은 물리적 거리가 아니며, 물리적 거리로 하면 보안에 치명적인 문제가 발생하기 때문이다. 그리고 필요 시 서로 다른 샤드끼리 메시지를 주고 받을 수 있는 인터샤드 트랙잭션도 가능하며, 추가적으로 데이터베이스 샤딩도 들어간다. 하지만 원장 사이즈 문제는 처음에 말한대로 원래의 도입 취지를 베리파이어블 프루닝으로 거의 다 해결할 수 있게 되어서 보조적으로 쓰인다고 표현한다. 로커스체인은 샤드수만큼 네트워크 사용량과 스토리지 사용량을 나누고, 고유의 알고리즘으로 샤드간 균형을 유지하는 동적샤딩으로 계정단위로 샤드를 재배치하여 샤드의 수와 사이즈, 밸리데이터 비율 등을 조절하는 동적 샤딩인데, 이것은 로커스체인이 어카운트별 트랜잭션 체인을 갖는 AWTC 원장구조이기 때문에 용이한 방식이다.[4]
로커스체인의 동적샤딩 기술은 노드가 부담해야 하는 네트워크 부하를 샤드 수만큼 나누고 네트워크 전체의 트랜잭션 처리량을 샤드 수만큼 늘리면서 알고리즘으로 샤드를 재배치하여 서로간의 균형을 유지하는 기술이다. 각 샤드는 독립적으로 BFT합의알고리즘을 수행하고, 한 어카운트는 한번에 하나의 샤드에서만 처리되는 방식이기 때문에 노드의 네트워크 사용량은 줄어들고 트랜잭션 처리량은 노드 숫자가 늘어날수록 이에 비례하여 늘어난다. 또한 로커스체인은 원장 구조가 어카운트 별(AWTC: Account-wise Transaction Chain)로 되어 있어 샤드간 불균형이 일어났을 경우 계정 단위로 샤드를 재배치하여 샤드의 수와 사이즈, 밸리데이터 비율 등을 조절하는 것이 용이하다. 여기에 추가적으로 원장을 쪼개는 스테이트 샤딩을 더해 스토리지 사용량 역시 샤드 수만큼 나눌 계획이라고 한다. 로커스체인은 DAG상에서 BFT합의알고리즘을 구현[5]해냈기 때문에 일반 샤딩이 가졌던 문제점을 해결했다고 주장한다.
각주
- ↑ RASTA LION, 〈샤드와 샤딩 (Shard and Sharding)〉, 《개인블로그》, 2019-08-27
- ↑ 2.0 2.1 nesoy, 〈Database의 샤딩(Sharding)이란?〉, 《개인블로그》, 2018-05-30
- ↑ 알프레스코 공식 홈페이지 - https://docs.alfresco.com/5.1/concepts/dynamic-sharding.html
- ↑ 처음처럼, 〈타블록체인 샤딩과 로커스체인의 다이나믹샤딩의 차이?〉, 《코박》, 2019-05-01
- ↑ 여용준, <로커스체인, 세계 최초 'DAG-BFT 확정합의 알고리즘' 블록체인 기술 구현 성공>, 《이뉴스투데이》, 2019-02-21
참고자료
- 알프레스코 공식 홈페이지 - https://docs.alfresco.com/5.1/concepts/dynamic-sharding.html
- 처음처럼, 〈타블록체인 샤딩과 로커스체인의 다이나믹샤딩의 차이?〉, 《코박》, 2019-05-01
- RASTA LION, 〈샤드와 샤딩 (Shard and Sharding)〉, 《개인블로그》, 2019-08-27
- 여용준, <로커스체인, 세계 최초 'DAG-BFT 확정합의 알고리즘' 블록체인 기술 구현 성공>, 《이뉴스투데이》, 2019-02-21
- nesoy, 〈Database의 샤딩(Sharding)이란?〉, 《개인블로그》, 2018-05-30
같이 보기