BM25(비엠25)는 "Best Matching 25"의 약자로서, 정보 검색에서 사용되는 TF-IDF 기반의 알고리즘이다. 특히, BF25 알고리즘은 텍스트 데이터에서 문서와 쿼리 간의 관련성을 평가하는 데 많이 사용된다. 이 알고리즘은 검색엔진에서 문서의 순위를 매기는 데 중요한 역할을 한다.
역사
BM25 알고리즘은 Stephen E. Robertson과 Karen Sparck Jones에 의해 개발되었다. BM25 알고리즘은 오픈소스로 제공되며, 다양한 검색엔진 및 정보 검색 시스템에서 구현되어 사용되고 있다. 인공지능(AI) 등장 이후에 새로운 벡터 방식의 검색이 개발되었는데, 이 경우에도 기존 BM25 검색과 벡터 검색에 대해 각각 비중을 부여하고 양자를 혼용하는 경우 좋은 성능을 기대할 수 있다. 예를 들어, BM25 방식에 40%의 비중을 부여하고, 벡터 검색의 일종인 FAISS 방식에 60%의 비중을 부여하는 방식이 있다.
특징
BM25 알고리즘은 다음과 같은 특징을 가지고 있다.
- 용어빈도(TF) : 문서 내에서 특정 용어가 얼마나 자주 등장하는지를 고려한다.
- 역문서빈도(IDF) : 특정 용어가 전체 문서 집합에서 얼마나 흔한지를 평가하여, 흔하지 않은 용어에 더 높은 가중치를 부여한다.
- 문서 길이 정규화 : 문서의 길이를 고려하여, 긴 문서가 짧은 문서보다 불리하지 않도록 조정한다.
BM25는 이러한 요소들을 결합하여, 사용자가 입력한 쿼리와 문서 간의 관련성을 계산하고, 가장 관련성이 높은 문서를 상위에 표시한다. 이로 인해 키워드 검색에 매우 효과적이며, 다양한 검색 엔진에서 널리 사용되고 있다.
같이 보기
이 BM25 문서는 알고리즘에 관한 글로서 내용 추가가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 추가해 주세요.
|
블록체인 : 블록체인 기술, 합의 알고리즘, 암호 알고리즘, 알고리즘 □■⊕, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스
|
|
채굴 알고리즘
|
SHA-256 • X11 • X11고스트 • X13 • X14 • X15 • X16R • X17 • 그로스톨 • 네오스크립트 • 니스트5 • 리라2알이 • 미리아드-그로스톨 • 블레이크 • 블레이크2 • 블레이크B • 블레이크2B • 블레이크256R8 • 블레이크256R14 • 스컹크해시 • 스케인 • 스크립트 알고리즘 • 스크립트엔 • 엘비알와이(LBRY) • 이더해시 • 이퀴해시 • 제반 • 쿼크 알고리즘 • 큐빗 알고리즘 • 크립토나이트 • 크립토나이트 라이트 • 타임트래블10 • 텐서리티 • 파스칼 • 프로그작업증명(ProgPoW)
|
|
매칭 알고리즘
|
BM25 • FAISS • 경매 • 더치 경매 • 매칭 알고리즘 • 매칭튜터 • 벡터검색 • 비크리 경매 • 센디 • 집닥 • 튜다 • 틴더
|
|
추천 알고리즘
|
TF-IDF • 역문서빈도(IDF) • 용어빈도(TF) • 추천 알고리즘 • 콘텐츠 기반 필터링 • 협업 필터링
|
|
고급 검색 알고리즘
|
AND-OR 검색 트리 • 국소 검색 알고리즘 • 국소 다발 검색 • 모의정련 • 언덕 오르기 검색 • 유전 알고리즘
|
|
대항 검색
|
검색의 차단 • 알파베타 가지치기 • 전방 가지치기 • 최소최대 알고리즘
|
|
제약 만족 문제
|
국소검색 • 역추적검색 • 제약전파
|
|
게임이론
|
게임이론 • 공유지의 비극 • 내시균형 • 메커니즘 디자인 • 비협조게임 • 사회선택이론 • 역게임이론 • 제로섬게임 • 조정게임 • 죄수의 딜레마 • 치킨게임 • 팃포탯 • 협조게임
|
|
위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반
|
|