의견.png 의견.png

BM25

위키원
이동: 둘러보기, 검색

BM25(비엠25)는 "Best Matching 25"의 약자로서, 정보 검색에서 사용되는 TF-IDF 기반의 알고리즘이다. 특히, BF25 알고리즘은 텍스트 데이터에서 문서쿼리 간의 관련성을 평가하는 데 많이 사용된다. 이 알고리즘은 검색엔진에서 문서의 순위를 매기는 데 중요한 역할을 한다.

역사

BM25 알고리즘은 Stephen E. Robertson과 Karen Sparck Jones에 의해 개발되었다. BM25 알고리즘은 오픈소스로 제공되며, 다양한 검색엔진 및 정보 검색 시스템에서 구현되어 사용되고 있다. 인공지능(AI) 등장 이후에 새로운 벡터 방식의 검색이 개발되었는데, 이 경우에도 기존 BM25 검색과 벡터 검색에 대해 각각 비중을 부여하고 양자를 혼용하는 경우 좋은 성능을 기대할 수 있다. 예를 들어, BM25 방식에 40%의 비중을 부여하고, 벡터 검색의 일종인 FAISS 방식에 60%의 비중을 부여하는 방식이 있다.

특징

BM25 알고리즘은 다음과 같은 특징을 가지고 있다.

  1. 용어빈도(TF) : 문서 내에서 특정 용어가 얼마나 자주 등장하는지를 고려한다.
  2. 역문서빈도(IDF) : 특정 용어가 전체 문서 집합에서 얼마나 흔한지를 평가하여, 흔하지 않은 용어에 더 높은 가중치를 부여한다.
  3. 문서 길이 정규화 : 문서의 길이를 고려하여, 긴 문서가 짧은 문서보다 불리하지 않도록 조정한다.

BM25는 이러한 요소들을 결합하여, 사용자가 입력한 쿼리문서 간의 관련성을 계산하고, 가장 관련성이 높은 문서를 상위에 표시한다. 이로 인해 키워드 검색에 매우 효과적이며, 다양한 검색 엔진에서 널리 사용되고 있다.

같이 보기


  의견.png 의견.png 이 BM25 문서는 알고리즘에 관한 글로서 내용 추가가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 추가해 주세요.