"블룸필터"의 두 판 사이의 차이

2021년 8월 10일 (화) 10:29 기준 최신판

블룸필터(Bloom Filter)는 특정 원소가 집합에 속하는지 검사하는데 사용할 수 있는 확률형 자료 구조이다.^[1] 블룸필터는 비트코인 언리미티드(Bitcoin Unlimited) 팀이 노드에 알려지지 않은 거래를 식별하는 데 도움을 주고 있다.

블룸필터(Bloom Filter)

개요[편집]

블룸필터(Bloom Filter)는1970년 Burton Howard Bloom에 의해 고안되었다. 블룸 필터에 의해 어떤 원소가 집합에 속한다고 판단된 경우 실제로는 원소가 집합에 속하지 않는 긍정 오류가 발생하는 것이 가능하지만, 반대로 원소가 집합에 속하지 않는 것으로 판단되었는데 실제로는 원소가 집합에 속하는 부정 오류는 절대로 발생하지 않는다는 특성이 있다. 집합에 원소를 추가하는 것은 가능하나, 집합에서 원소를 삭제하는 것은 불가능하다. 집합 내 원소의 숫자가 증가할수록 긍정 오류 발생 확률도 증가한다.^[2]

등장배경[편집]

블룸필터(Bloom Filter)는 1970년도에 Burton H. Bloom이 고안한 것으로 공간 효율적인 probabilistic data structure이며 구성요소가 집합의 구성원인지 점검하는데 사용된다.^[3]

특징[편집]

집합의 크기가 굉장히 크거나 집합의 속해있는 원소의 크기가 커서 원소가 집합에 속해있는지 정확히 판단하는데 시간이 오래걸리는 경우 이 과정의 전처리 과정으로 Bloom Filter를 이용해서 아예 집합에 속할 일이 없는 원소를 미리 걸러낼 수 있다. Google Chrome은 위험한 사이트 검사에 Bloom Filter를 사용한다고 알려져 있다. Bloom Filter를 사용해서 빠르게 대충 검사한 다음, 의심이 가는 사이트인 경우 데이터베이스에 다시 정확하게 검사하는 것이다. 아마 위험 사이트 데이터베이스의 크기가 크고, 검사 요청이 굉장히 빈번하게 일어나기 때문에 Bloom Filter를 전처리 과정으로 사용해서 데이터베이스 요청 부하를 줄이는 것으로 보인다. 비트코인도 내부적으로 Bloom Filter를 사용하는 것으로 알려져 있다. 보통은 Disk IO를 줄이기 위한 최적화 방법으로 많이 사용한다.^[1]

활용[편집]

스펠링체크, 사전, 웹 검색, IP Filtering, Router 등에 활용되고 Squid Web, Venti Storage System, SPIN model checker, Google Chrome Browser 등에도 활용되고 있다.
카산드라(Cassandra) : SSTable 생성시(Index용으로 활용) - Read 성능 향상(Disk IO를 줄임).

 - SMHasher & MurmurHash hash 함수 사용 : http://code.google.com/p/smhasher/

에이치베이스(HBase) : HFile 안에 로우와 컬럼이 존재하는지 검사하기 위해 사용한다.
빅테이블(Bigtable) : 불필요한 디스크 접근을 피하기 위해 사용한다.
오라클(Oracle)

 - Parallel Join 시 슬레이브(slave) 간의 커뮤니케이션 데이터량을 줄이기 위해 사용한다.(10gR2)
 - Join-Filter Pruning 사용시.(11gR1)
 - Result Cache 지원 (11gR1).

Guava Bloom Filter : http://code.google.com/p/guava-libraries/issues/detail?id=12
pyreBloom = Python + Redis + Bloom Filter
bloomfilter-rb = Ruby + Redis + Bloom Filter^[3]
블룸필터는 비트코인 언리미티드 팀(Bitcoin Unlimited Team)이 노드에 알려지지 않은 거래를 식별하는 데 도움을 주고 있다.^[4]

장단점[편집]

장점[편집]

블룸필터는 많은 양의 데이터를 줄여서 공간 효율적으로 빠르게 검색할 수 있다.^[5]
처리능력 대비 적은 메모리 공간만을 필요하다.^[6]
블룸필터는 (Join Filter Pruning) Hash Join 이나 Merge Join 을 하기에 앞서 조인(join) 대상 건수를 미리 줄임으로써 조인의 부하를 감소시킨다.
Parallel Processing 의 경우 Slave 에서 조인을 하기 위해 Coordinate로 전송하는 통신양을 감소시키고, 조인의 부하까지 감소시킨다.^[7]

단점[편집]

동적으로 원소를 추가하기에 효율적이지 않다.
원소의 개수가 동적으로 계속 변경된다면 블룸필터를 구성하는 시점에 최적의 해시함수 개수, 메모리 사이즈를 결정할 수가 없게 된다. 또한 원소가 예상보다 훨씬 많아지게 된다면 FPP 가 너무 커져서 문제가 생길 수 있다.
원소의 삭제가 불가능하고 원소의 개수가 많아질수록 false positive 의 확률이 높아진다.^[8]

동영상[편집]

각주[편집]

↑ ^1.0 ^1.1 , 〈알아두면 좋은 자료 구조, Bloom Filter〉, 《스팀잇》, 2017
↑ 〈블룸 필터〉, 《위키백과》
↑ ^3.0 ^3.1 , 〈Bloom Filter 개요〉, 《개인 블로그》, 2013-05-13
↑ jo Yujin, 〈블룸 필터(Bloom Filter)는 무엇이며, 어떻게 사용되는가?〉, 《Dash》, 2019-02-19
↑ itbrain, 〈BLOOM FILTER(블룸 필터)〉, 《티스토리》, 2009-12-16
↑ 임지홍, 〈BloomFilter는 언제 쓰나요?〉, 《toast meetup》, 2019-07-25
↑ 한국데이터산업진흥원, 〈데이터 기술 자료〉, 《한국데이터산업진흥원》
↑ Taeguk, 〈Bloom Filter 자료구조〉, 《개인 블로그》, 2019-05-18

참고자료[편집]

〈알아두면 좋은 자료 구조, Bloom Filter〉, 《steemit》, 2017
미물,〈Bloom Filter 개요〉, 《개인 블로그》, 2013-05-13
tbrain, 〈BLOOM FILTER(블룸 필터)〉, 《티스토리》, 2009-12-16
jo Yujin, 〈블룸 필터(Bloom Filter)는 무엇이며, 어떻게 사용되는가?〉, 《Dash》, 2019-02-19
임지홍, 〈BloomFilter는 언제 쓰나요?〉, 《toast meetup》, 2019-07-25
한국데이터산업진흥원, 〈데이터 기술 자료〉, 《한국데이터산업진흥원》
Taeguk, 〈Bloom Filter 자료구조〉, 《개인 블로그》, 2019-05-18

같이 보기[편집]

이 블룸필터 문서는 블록체인 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

블록체인 : 블록체인 기술^□^■^⊕, 합의 알고리즘, 암호 알고리즘, 알고리즘, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스

블록체인 기술	Bech32 • BTP • DRC-20 • EIP • IPFS • KRC-20 • NFT 마켓플레이스 • P2P • P2PKH • P2SH • PFP • PUF • SPV • TPS • TRC-20 • UTXO • 가나슈 • 가명성 • 가스 • 가십 • 가십 프로토콜 • 개념증명(PoC) • 검증가능지연함수(VDF) • 게스 • 고스트 프로토콜 • 공공예산 • 글로벌신뢰인공지능 • 대체가능토큰 • 대체불가토큰(NFT) • 도지더리움 브릿지 • 디지털 자산 • 디지털 희소성 • 라운드 • 라운드 로빈 • 라이트하우스 • 랜덤 • 레그테크 • 레이든 • 리카르디안 계약 • 린스타트업 • 마스터키 • 마스트 • 메인넷 • 멜팅 • 믹싱 • 민팅 • 밈블윔블 • 반감기 • 베타넷 • 변경불가성 • 브릿지 • 블록체인 생태계 • 블록체인 클라우드 서비스(BaaS) • 블룸필터 • 비블록체인 • 비앱 • 비콘체인 • 비트코인코어 • 빤통경제 • 수정 고스트 프로토콜 • 스냅샷 • 스마트 계약 • 스마트 브리지 • 스웜프로토콜 • 스크립트퍼브키 • 스테이킹 • 스텔스 주소 • 스핀오프코인 • 슬래싱 • 시크릿 컨트랙트 • 심플 컨트랙트 • 아토믹스왑 • 암호경제(크립토 이코노미) • 앤드어스체인인공지능 • 앵커링 • 언스테이킹 • 에어드랍 • 에폭 • 오프체인 오더락 • 오피리턴 • 옵코드 • 원토큰 문제 • 웨이 • 위스퍼 프로토콜 • 위임 • 유니스왑 • 유동성 • 이더리움 가상머신(EVM) • 이더리움 클라이언트 • 이중지불 • 익명성 • 인증된 익명 아이디 • 인터레저 프로토콜(ILP) • 자산화 • 잠금 스크립트 • 최소기능제품(MVP) • 컨소시엄 블록체인 • 컬러드코인 • 코인셔플 • 코인소각 • 코인에이지 • 코인조인 • 코인토싱 • 크립토노트 • 키스토어 • 타임락 • 테스트넷 • 토다 • 토큰 이코노미 • 토큰화 • 튜링완전 • 튜링불완전 • 트랜잭션 아이디(TxID) • 트러스트 컨트랙트 • 트루빗 • 트릴레마 • 파워 • 파티셔닝 • 퍼블릭 블록체인 • 페널티 • 프라이버시 • 프라이빗 블록체인 • 플랫폼 • 플러딩 • 피어 • 피투피(P2P) • 하이브리드 블록체인 • 합의 • 해시락 • 해시타임락(HTLC) • 해제 스크립트 • 확장성

해시	레인보우 테이블 • 매핑 • 머클경로 • 머클루트 • 머클트리 • 분산해시테이블(DHT) • 블록해시 • 스큐드 머클트리 • 온라인툴즈 • 이전블록해시 • 카뎀리아 • 해시 • 해시레이트 • 해시맵 • 해시충돌 • 해시테이블 • 해시파워 • 해시함수 • 해싱

블록	고아블록 • 그래핀 • 논스 • 마이크로블록 • 베이킹 • 북키퍼 • 브랜치블록 • 브로드캐스팅 • 블록 • 블록높이 • 블록바디 • 블록생성자 • 블록정보 • 블록타임 • 블록헤더 • 비츠 • 세그윗 • 엉클블록 • 완결성 • 제네시스블록 • 타임스탬프 • 프룻 • 프룻체인

체인	더블체인 • 라이트닝 네트워크 • 라이트닝 루프 • 루트체인 • 루프체인 • 메인체인 • 방향성 비순환 그래프(DAG) • 베리파이어블 프루닝 • 블록격자 • 블록체인 • 사용자 활성화 소프트포크(UASF) • 사용자 활성화 하드포크(UAHF) • 사이드체인 • 서브체인 • 소프트포크 • 오페라체인 • 오프체인 • 온체인 • 인터체인 • 차일드체인 • 체인 • 탱글 • 테스트체인 • 토카막 네트워크 • 포크 • 포크체인 • 퓨어체인 • 프로덕트체인 • 프루닝 • 프리포크 • 플라즈마 알고리즘 • 플라즈마캐시 • 플래시 계층 • 하드포크 • 해시그래프 • 홀로체인

노드	검증인(밸리데이터) • 기본노드 • 노드 • 라이트노드 • 랜덤노드 • 마스터노드 • 베이킹노드 • 보조노드 • 보증노드 • 슈퍼노드(슈퍼대표, 대표노드) • 슬롯 • 슬롯리더 • 엔드포인트노드(레인저노드) • 의회 네트워크 • 작업노드 • 종단노드 • 종자노드(시드노드) • 중계노드 • 지갑노드 • 채굴노드(마이닝노드) • 쿼럼 • 풀노드 • 합의노드

샤딩	네트워크 샤딩 • 데이터베이스 샤딩 • 동적샤딩 • 샤드 • 샤딩 • 스테이트 샤딩 • 알고리즘 샤딩 • 적응형 상태 샤딩 • 체인샤딩 • 트랜잭션 샤딩

채굴	병합채굴 • 사전채굴 • 에이식(ASIC) • 에이식부스트 • 에이식 저항 • 일드파밍 • 채굴 • 채굴 난이도 • 채굴량 • 탄소감축채굴 • 페어런치

탈중앙화	TVL • 거버넌스 • 게임파이 • 다오(DAO) • 다이코(DAICO) • 닥(DAC) • 닥스(DAX) • 덱스(DEX) • 디앱(DApp) • 디지오(DGO) • 디튜브 • 디파이(DeFi) • 분산경제 • 분산원장(DLT) • 분산 클라우드 • 소셜파이 • 씨파이(C-Fi) • 오프체인 거버넌스 • 온체인 거버넌스 • 원장 • 준중앙화 • 중앙화 • 탈중앙화 • 탈중앙화 TPS • 탈중앙화 조직(DO) • 탈중앙화 지수(DQ)

분산아이디	DIDs • IETF • ToIP • 검증가능한 자격증명 • 검증인 • 디지털아이덴티티재단 • 발급자 • 보유자 • 분산아이디(DID) • 분산아이디 기관 • 분산아이디 인증(DID Auth) • 아이온 • 자기주권 • 자기주권신원 • 최소화된 자격증명 데이터 • 탈중앙화 키관리시스템 • 통합해석기

오라클	상호인증 블록체인 • 오라클 • 오라클 머신 • 오라클 문제 • 오라클 서비스 • 중간자

BIP	BIP • BIP9 • BIP16 • BIP32 • BIP39 • BIP43 • BIP44 • BIP47 • BIP49 • BIP63 • BIP70 • BIP84 • BIP141 • BIP148

ERC	ERC • ERC-20 • ERC-165 • ERC-223 • ERC-621 • ERC-721 • ERC-777 • ERC-827 • ERC-884 • ERC-998 • ERC-1155 • ERC-1404

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[heejin-1] 1.0 ^1.1 , 〈알아두면 좋은 자료 구조, Bloom Filter〉, 《스팀잇》, 2017

[2] 〈블룸 필터〉, 《위키백과》

[.EB.AF.B8.EB.AC.BC-3] 3.0 ^3.1 , 〈Bloom Filter 개요〉, 《개인 블로그》, 2013-05-13

[4] Yujin, 〈블룸 필터(Bloom Filter)는 무엇이며, 어떻게 사용되는가?〉, 《Dash》, 2019-02-19

[5] tbrain, 〈BLOOM FILTER(블룸 필터)〉, 《티스토리》, 2009-12-16

[6] 임지홍, 〈BloomFilter는 언제 쓰나요?〉, 《toast meetup》, 2019-07-25

[7] 한국데이터산업진흥원, 〈데이터 기술 자료〉, 《한국데이터산업진흥원》

[8] Taeguk, 〈Bloom Filter 자료구조〉, 《개인 블로그》, 2019-05-18

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ 18번째 줄: / 18번째 줄: @@
 * [[에이치베이스]](HBase) : HFile 안에 로우와 컬럼이 존재하는지 검사하기 위해 사용한다.
 * [[빅테이블]](Bigtable) : 불필요한 디스크 접근을 피하기 위해 사용한다.
-* [[오라클 (제품)|오라클]](Oracle)
+* [[오라클 (데이터베이스)|오라클]](Oracle)
    - Parallel Join 시 슬레이브(slave) 간의 커뮤니케이션 데이터량을 줄이기 위해 사용한다.(10gR2)
    - Join-Filter Pruning 사용시.(11gR1)

위키원

이름공간

변수

보기

더 보기

검색