"협업 필터링"의 두 판 사이의 차이

2024년 4월 26일 (금) 10:58 기준 최신판

협업 필터링(Collaborative Filtering, CF)이란 같은 콘텐츠를 좋아하는 사람은 콘텐츠 취향이 비슷할 것이라는 가정에 기반한 알고리즘으로, 컴퓨터 이용자의 모든 사용 및 소비 기록을 입력시켜 그걸 근거로 불필요한 정보를 필터링해주는 기술이다. ‘갑’이 A·B 콘텐츠를 좋아하고 ‘을’이 B·C 콘텐츠를 좋아한다면 갑에게는 C를, 을에게는 A를 추천하는 식이다. 콘텐츠 평가에 참여하는 사람이 많아지고 데이터가 쌓일수록 추천 정확도가 높아지는 머신러닝 기술이 적용됐다. ‘협업 필터링’이라는 이름이 붙은 이유다. 마침 빅데이터 시대로 접어들면서 개인화된 추천 서비스는 더 힘을 받고 있다.

역사[편집]

협업 필터링은 1992년 미국 제록스의 팰러앨토 리서치센터가 구축한 정보 검색 시스템을 시초로 본다. 콘텐츠 서비스에 적용된 것은 같은 해 폴 레즈닉 미시간대 교수가 미네소타대학교 연구팀과 함께 유즈넷 넷뉴스(USENET Net news)의 뉴스 추천 시스템을 개발하면서다. 이후 이 알고리즘은 아마존이 도서 추천 시스템에 적용하면서 유명해졌다.^[1]

사례[편집]

협업 알고리즘

우선 User A와 취향이 비슷한 사용자를 찾아야 한다. 취향은 콘텐츠에 대한 평가로 나타날 것이므로, 각 사용자의 평가의 유사도(유사성)을 계산해 보면 된다. 계산해보니, User B, C, D가 유사도가 가장 높게 나온다. 이 User들을 취향이 비슷한 사용자 그룹인 Neighbor로 분류한다.

그 다음 단계는 User B, C, D가 가장 좋게 평가한 콘텐츠를 찾는 것이다. 추천 대상자가 아직 접하지 않는 콘텐츠 중 하나인 '아이돌마스터'의 평가의 평균이 가장 높게 나온다. 따라서, 추천 대상자가 이 콘텐츠를 좋아할 것이라고 예상할 수 있다.

최종적으로 '아이돌마스터'를 추천 대상자(User A)한테 추천 콘텐츠로 제시한다.^[2]

종류[편집]

협업 필터링은 같은 성향이나 특성을 가진 사람은 비슷한 선택을 한다는 가정을 기반으로 추천하는 방식이기 때문에 기본적으로 많은 양의 데이터가 있어야 가능하기 때문에 데이터가 부족한 초기에 사용하기 어렵다. 그래서 유저기반 협업필터링과 아이템기반 협업필터링으로 나눠 볼 수 있다.

유저기반 협업필터링

비슷한 성향을 보이는 다른 사용자들의 기록을 분석하여 추천할 영상을 찾는다.

아이템기반 협업필터링

특정 영상A와 유사한 성향을 가진 영상을 모은 뒤. 사용자가 A를 초과했을 때 유사도가 높은 다른 영상을 추천한다. 예를들어 넷플릭스의 장점이라고 하면, 한 시즌 에피소드가 모두 업로드 되기 때문에 시청자들의 '몰아 보기'가 가능하다는 점입니다. 무엇보다 개인의 취향 맞춤형으로 영화나 드라마를 추천한다는 부분을 빼놓을 수 없다.

활용[편집]

넷플릭스, 내 취향 다 아는 이유[편집]

넷플릭스는 미국의 동영상 스트리밍 서비스 이다. 지난 2016년 1월, 우리나라에서 서비스를 시작한 이후 국내 이용자 수도 꾸준히 증가하고 있다. 최근에 게재된 연구에 따르면, 선택지가 12개 이상 많아질 경우, 판단과 결정에 관여하는 뇌의 활동 영역이 감소할 수 있다고 한다. 이러한 연구를 감안하여 넷플릭스는 우리 뇌가 처리할 수 있을 정도의 한정된 영화 수만 추천한다. 독일의 과학 저널리스트 크리스토프 드뢰서는 책<알고리즘이 당신에게 이것을 추천합니다>을 통해 넷플렉스의 추천 서비스가 모두 '알고리즘' 덕분이라고 말하며, 오늘날 거의 대부분의 추천 시스템이 '협업 필터링(collaborative filtering)' 알고리즘과 '내용 기반 필터링(content-based filtering)' 알고리즘을 조합한 형태라고 말한다.

협업 필터링이란 기존 사용자의 행동 정보를 분석해 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이다. 따라서 알고리즘의 결과가 직관적이며, 항목의 구체적인 내용을 분석할 필요가 없다는 장점이 있다. 즉, 협업 필터링은 사용자의 행동 기록을 이용한다. 가령, 드라마 <하우스 오브 카드>를 시청한 시청자가 <홈랜드>를 시청한 경우가 많으면 <하우스 오브 카드>를 시청한 사람에게 홈랜드를 추천하는 방식이다. 반면, 내용 기반 필터링의 경우 항목 자체를 분석해 추천을 구현하는 방식이다. 내용 기반 필터링을 하기 위해서는 항목을 분석한 프로파일과 사용자의 선호도를 추출한 프로파일을 추출해 유사성을 계산해야 한다. 사용자의 특성을 비교해 사용자가 선호할 만한 콘텐츠를 제공하는 것이다. '사용자가 어떤 영화를 찾는가?', '그가 보기 시작했다가 금세 그만둔 영화는 무엇인가?', '그는 시리즈물을 한꺼번에 보는가?' 하는 개인적 취향에 관한 정보와 영화의 배경, 인물, 장르 등을 분석한 정보와 비교하는 방식이다.

현재 넷플릭스에서 사용하는 알고리즘은 협업 필터링을 기반으로 이를 고도화한 '모델 기반 협업 필터링(Model-based Collaborative Filtering algorithm)'이다. 이는 지난 2006년 넷플릭스에서 100만 달러의 상금을 걸고 공모한 '넷플릭스 프라이즈(Netflix Prize)'를 통해 개발됐다. 당시, 넷플릭스 측에서는 응모자들에게 사용자 48만 명이 영화 1만 7,000편에 준 점수를 모은 데이터 뱅크를 제공했다고 한다. 이 때문에 넷플릭스는 어떤 영화가 어떻게 관객을 사로잡는지, 어떻게 해야 흥행작을 만들 수 있는지 세계에서 가장 잘 아는 회사라는 평가를 받기도 합니다. 넷플릭스는 전체 영화 시청의 75%가 추천을 통해 이뤄진다고 전하며 협업 알고리즘의 활용은 긍정적인 결과를 가져왔다고 말한다.^[3]

각주[편집]

↑ 네이버 지식백과, 〈협업 필터링 알고리즘〉, 네이버 지식백과
↑ , 〈[추천시스템 1. 추천 시스템 및 추천 알고리즘 '협업 필터링' ]〉, 《네이버 블로그》, 2017-11-12
↑ ,함예슬 〈넷플릭스, 내 취향 다 아는 이유' 〉, 《이웃집과학자》, 2018-11-12

같이 보기[편집]

이 협업 필터링 문서는 알고리즘에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

블록체인 : 블록체인 기술, 합의 알고리즘, 암호 알고리즘, 알고리즘^□^■^⊕, 블록체인 플랫폼, 블록체인 솔루션, 블록체인 서비스

채굴 알고리즘	SHA-256 • X11 • X11고스트 • X13 • X14 • X15 • X16R • X17 • 그로스톨 • 네오스크립트 • 니스트5 • 리라2알이 • 미리아드-그로스톨 • 블레이크 • 블레이크2 • 블레이크B • 블레이크2B • 블레이크256R8 • 블레이크256R14 • 스컹크해시 • 스케인 • 스크립트 알고리즘 • 스크립트엔 • 엘비알와이(LBRY) • 이더해시 • 이퀴해시 • 제반 • 쿼크 알고리즘 • 큐빗 알고리즘 • 크립토나이트 • 크립토나이트 라이트 • 타임트래블10 • 텐서리티 • 파스칼 • 프로그작업증명(ProgPoW)

매칭 알고리즘	BM25 • FAISS • 경매 • 더치 경매 • 매칭 알고리즘 • 매칭튜터 • 벡터검색 • 비크리 경매 • 센디 • 집닥 • 튜다 • 틴더

추천 알고리즘	TF-IDF • 역문서빈도(IDF) • 용어빈도(TF) • 추천 알고리즘 • 콘텐츠 기반 필터링 • 협업 필터링

고급 검색 알고리즘	AND-OR 검색 트리 • 국소 검색 알고리즘 • 국소 다발 검색 • 모의정련 • 언덕 오르기 검색 • 유전 알고리즘

대항 검색	검색의 차단 • 알파베타 가지치기 • 전방 가지치기 • 최소최대 알고리즘

제약 만족 문제	국소검색 • 역추적검색 • 제약전파

게임이론	게임이론 • 공유지의 비극 • 내시균형 • 메커니즘 디자인 • 비협조게임 • 사회선택이론 • 역게임이론 • 제로섬게임 • 조정게임 • 죄수의 딜레마 • 치킨게임 • 팃포탯 • 협조게임

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 네이버 지식백과, 〈협업 필터링 알고리즘〉, 네이버 지식백과

[2] , 〈[추천시스템 1. 추천 시스템 및 추천 알고리즘 '협업 필터링' ]〉, 《네이버 블로그》, 2017-11-12

[3] ,함예슬 〈넷플릭스, 내 취향 다 아는 이유' 〉, 《이웃집과학자》, 2018-11-12

[1]

[2]

[3]

@@ 1번째 줄: / 1번째 줄: @@
-==개념==
+'''협업 필터링'''(Collaborative Filtering, CF)이란 같은 [[콘텐츠]]를 좋아하는 사람은 콘텐츠 취향이 비슷할 것이라는 가정에 기반한 [[알고리즘]]으로, [[컴퓨터]] 이용자의 모든 사용 및 소비 기록을 입력시켜 그걸 근거로 불필요한 정보를 필터링해주는 기술이다. ‘갑’이 A·B 콘텐츠를 좋아하고 ‘을’이 B·C 콘텐츠를 좋아한다면 갑에게는 C를, 을에게는 A를 추천하는 식이다. 콘텐츠 평가에 참여하는 사람이 많아지고 데이터가 쌓일수록 추천 정확도가 높아지는 [[머신러닝]] 기술이 적용됐다. ‘협업 필터링’이라는 이름이 붙은 이유다. 마침 빅데이터 시대로 접어들면서 개인화된 추천 서비스는 더 힘을 받고 있다.
-같은 콘텐츠를 좋아하는 사람은 콘텐츠 취향이 비슷할 것이라는 가정에 기반한 알고리즘이으로, 컴퓨터 이용자의 모든 사용 및 소비 기록을 입력시켜 그걸 근거로 불필요한 정보를 필터링해주는 기술이다. ‘갑’이 A·B 콘텐츠를 좋아하고 ‘을’이 B·C 콘텐츠를 좋아한다면 갑에게는 C를, 을에게는 A를 추천하는 식이다. 콘텐츠 평가에 참여하는 사람이 많아지고 데이터가 쌓일수록 추천 정확도가 높아지는 머신러닝 기술이 적용됐다. ‘협업 필터링’이라는 이름이 붙은 이유다. 마침 빅데이터 시대로 접어들면서 개인화된 추천 서비스는 더 힘을 받고 있다. 협업 필터링은 1992년 미국 제록스의 팰러앨토 리서치센터가 구축한 정보 검색 시스템을 시초로 본다. 콘텐츠 서비스에 적용된 것은 같은 해 폴 레즈닉 미시간대 교수가 미네소타대학교 연구팀과 함께 유즈넷 넷뉴스(USENET Net news)의 뉴스 추천 시스템을 개발하면서다. 이후 이 알고리즘은 아마존이 도서 추천 시스템에 적용하면서 유명해졌다.
-==사례==
+== 역사 ==
-[[파일:협업.PNG|썸네일|500픽셀|'''협업 알고리즘''']]
+협업 필터링은 1992년 미국 [[제록스]]의 [[팰러앨토]] 리서치센터가 구축한 정보 검색 시스템을 시초로 본다. 콘텐츠 서비스에 적용된 것은 같은 해 폴 레즈닉 미시간대 교수가 미네소타대학교 연구팀과 함께 유즈넷 넷뉴스(USENET Net news)의 뉴스 추천 시스템을 개발하면서다. 이후 이 알고리즘은 아마존이 도서 추천 시스템에 적용하면서 유명해졌다.<ref>네이버 지식백과, 〈[https://terms.naver.com/entry.nhn?docId=2272632&cid=42107&categoryId=42107 협업 필터링 알고리즘]〉, 네이버 지식백과</ref>
-# 우선 User A와 취향이 비슷한 사용자를 찾아야 한다. 취향은 콘텐츠에 대한 평가로 나타날 것이므로, 각 사용자의 평가의 유사도(유사성)을 계산해 보면 된다. 계산해보니, User B, C, D가 유사도가 가장 높게 나온다. 이 User들을 취향이 비슷한 사용자 그룹인 Neighbor로 분류한다.
-# 그 다음 단계는 User B, C, D가 가장 좋게 평가한 콘텐츠를 찾는 것이다. 추천 대상자가 아직 접하지 않는 콘텐츠 중 하나인 '아이돌마스터'의 평가의 평균이 가장 높게 나온다. 따라서, 추천 대상자가 이 콘텐츠를 좋아할 것이라고 예상할 수 있다.
+== 사례 ==
-# 최종적으로 '아이돌마스터'를 추천 대상자(User A)한테 추천 콘텐츠로 제시한다.
+[[파일:협업.PNG|썸네일|600픽셀|'''협업 알고리즘''']]
+* 우선 User A와 취향이 비슷한 사용자를 찾아야 한다. 취향은 콘텐츠에 대한 평가로 나타날 것이므로, 각 사용자의 평가의 유사도(유사성)을 계산해 보면 된다. 계산해보니, User B, C, D가 유사도가 가장 높게 나온다. 이 User들을 취향이 비슷한 사용자 그룹인 Neighbor로 분류한다.
+* 그 다음 단계는 User B, C, D가 가장 좋게 평가한 콘텐츠를 찾는 것이다. 추천 대상자가 아직 접하지 않는 콘텐츠 중 하나인 '아이돌마스터'의 평가의 평균이 가장 높게 나온다. 따라서, 추천 대상자가 이 콘텐츠를 좋아할 것이라고 예상할 수 있다.
+* 최종적으로 '아이돌마스터'를 추천 대상자(User A)한테 추천 콘텐츠로 제시한다.<ref>, 〈[https://blog.naver.com/tails1101/221137999476 [추천시스템] 1. 추천 시스템 및 추천 알고리즘 '협업 필터링' ]〉, 《네이버 블로그》,  2017-11-12</ref>
 ==종류==
-협업 필터링은 같은 성향이나 특성을 가진 사람은 비슷한 선택을 한다는 가정을 기반으로 추천하는 방식이기 때문에 기본적으로 많은 양의 데이터가 있어야 가능하기 때문에 데이터가 부족한 초기에 사용하기 어렵다. 그래서 유저기반 협업필터링과 아이템기반 협업필터링으로 나눠 볼 수 있다.
+협업 필터링은 같은 성향이나 특성을 가진 사람은 비슷한 선택을 한다는 가정을 기반으로 추천하는 방식이기 때문에 기본적으로 많은 양의 [[데이터]]가 있어야 가능하기 때문에 데이터가 부족한 초기에 사용하기 어렵다. 그래서 유저기반 협업필터링과 아이템기반 협업필터링으로 나눠 볼 수 있다.
 *유저기반 협업필터링
 비슷한 성향을 보이는 다른 사용자들의 기록을 분석하여 추천할 영상을 찾는다.
 *아이템기반 협업필터링
-특정 영상A와 유사한 성향을 가진 영상을 모은 뒤. 사용자가 A를 초과했을 때 유사도가 높은 다른 영상을 추천한다. 넷플릭스의 장점이라고 하면, 한 시즌 에피소드가 모두 업로드 되기 때문에 시청자들의 '몰아 보기'가 가능하다는 점입니다. 무엇보다 개인의 취향 맞춤형으로 영화나 드라마를 추천한다는 부분을 빼놓을 수 없다.
+특정 영상A와 유사한 성향을 가진 영상을 모은 뒤. 사용자가 A를 초과했을 때 유사도가 높은 다른 영상을 추천한다. 예를들어 넷플릭스의 장점이라고 하면, 한 시즌 에피소드가 모두 [[업로드]] 되기 때문에 시청자들의 '몰아 보기'가 가능하다는 점입니다. 무엇보다 개인의 취향 맞춤형으로 영화나 드라마를 추천한다는 부분을 빼놓을 수 없다.
 ==활용==
 ===넷플릭스, 내 취향 다 아는 이유===
-넷플릭스는 미국의 동영상 스트리밍 서비스 이다. 지난 2016년 1월, 우리나라에서 서비스를 시작한 이후 국내 이용자 수도 꾸준히 증가하고 있다. 최근에 게재된 연구에 따르면, 선택지가 12개 이상 많아질 경우, 판단과 결정에 관여하는 뇌의 활동 영역이 감소할 수 있다고 한다. 이러한 연구를 감안하여 넷플릭스는 우리 뇌가 처리할 수 있을 정도의 한정된 영화 수만 추천한다. 독일의 과학 저널리스트 크리스토프 드뢰서는 책<알고리즘이 당신에게 이것을 추천합니다>을 통해 넷플렉스의 추천 서비스가 모두 '알고리즘' 덕분이라고 말하며,  오늘날 거의 대부분의 추천 시스템이 '협업 필터링(collaborative filtering)' 알고리즘과 '내용 기반 필터링(content-based filtering)' 알고리즘을 조합한 형태라고 말한다.
+넷플릭스는 미국의 동영상 [[스트리밍 서비스]] 이다. 지난 2016년 1월, 우리나라에서 서비스를 시작한 이후 국내 이용자 수도 꾸준히 증가하고 있다. 최근에 게재된 연구에 따르면, 선택지가 12개 이상 많아질 경우, 판단과 결정에 관여하는 뇌의 활동 영역이 감소할 수 있다고 한다. 이러한 연구를 감안하여 넷플릭스는 우리 뇌가 처리할 수 있을 정도의 한정된 영화 수만 추천한다. 독일의 과학 저널리스트 크리스토프 드뢰서는 책<알고리즘이 당신에게 이것을 추천합니다>을 통해 넷플렉스의 추천 서비스가 모두 '알고리즘' 덕분이라고 말하며,  오늘날 거의 대부분의 추천 시스템이 '협업 필터링(collaborative filtering)' [[알고리즘]]과 '내용 기반 필터링(content-based filtering)' 알고리즘을 조합한 형태라고 말한다.
+협업 필터링이란 기존 사용자의 행동 정보를 분석해 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이다. 따라서 알고리즘의 결과가 직관적이며, 항목의 구체적인 내용을 분석할 필요가 없다는 장점이 있다. 즉, 협업 필터링은 사용자의 행동 기록을 이용한다. 가령, 드라마 <하우스 오브 카드>를 시청한 시청자가 <홈랜드>를 시청한 경우가 많으면 <하우스 오브 카드>를 시청한 사람에게 홈랜드를 추천하는 방식이다. 반면, 내용 기반 [[필터링]]의 경우 항목 자체를 분석해 추천을 구현하는 방식이다. 내용 기반 필터링을 하기 위해서는 항목을 분석한 프로파일과 사용자의 선호도를 추출한 [[프로파일]]을 추출해 유사성을 계산해야 한다. 사용자의 특성을 비교해 사용자가 선호할 만한 콘텐츠를 제공하는 것이다. '사용자가 어떤 영화를 찾는가?', '그가 보기 시작했다가 금세 그만둔 영화는 무엇인가?', '그는 시리즈물을 한꺼번에 보는가?' 하는 개인적 취향에 관한 정보와 영화의 배경, 인물, 장르 등을 분석한 정보와 비교하는 방식이다.
+현재 넷플릭스에서 사용하는 알고리즘은 협업 필터링을 기반으로 이를 고도화한 '모델 기반 협업 필터링(Model-based Collaborative Filtering algorithm)'이다. 이는 지난 2006년 넷플릭스에서 100만 달러의 상금을 걸고 공모한 '넷플릭스 프라이즈(Netflix Prize)'를 통해 개발됐다. 당시, 넷플릭스 측에서는 응모자들에게 사용자 48만 명이 영화 1만 7,000편에 준 점수를 모은 [[데이터]] 뱅크를 제공했다고 한다. 이 때문에 넷플릭스는 어떤 영화가 어떻게 관객을 사로잡는지, 어떻게 해야 흥행작을 만들 수 있는지 세계에서 가장 잘 아는 회사라는 평가를 받기도 합니다. 넷플릭스는 전체 영화 시청의 75%가 추천을 통해 이뤄진다고 전하며 협업 알고리즘의 활용은 긍정적인 결과를 가져왔다고 말한다.<ref>,함예슬 〈[http://www.astronomer.rocks/news/articleView.html?idxno=86454 넷플릭스, 내 취향 다 아는 이유' ]〉, 《이웃집과학자》,  2018-11-12</ref>
+{{각주}}
-협업 필터링이란 기존 사용자의 행동 정보를 분석해 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이다. 따라서 알고리즘의 결과가 직관적이며, 항목의 구체적인 내용을 분석할 필요가 없다는 장점이 있다. 즉, 협업 필터링은 사용자의 행동 기록을 이용한다. 가령, 드라마 <하우스 오브 카드>를 시청한 시청자가 <홈랜드>를 시청한 경우가 많으면 <하우스 오브 카드>를 시청한 사람에게 홈랜드를 추천하는 방식이다. 반면, 내용 기반 필터링의 경우 항목 자체를 분석해 추천을 구현하는 방식이다. 내용 기반 필터링을 하기 위해서는 항목을 분석한 프로파일과 사용자의 선호도를 추출한 프로파일을 추출해 유사성을 계산해야 한다. 사용자의 특성을 비교해 사용자가 선호할 만한 콘텐츠를 제공하는 것이다. '사용자가 어떤 영화를 찾는가?', '그가 보기 시작했다가 금세 그만둔 영화는 무엇인가?', '그는 시리즈물을 한꺼번에 보는가?' 하는 개인적 취향에 관한 정보와 영화의 배경, 인물, 장르 등을 분석한 정보와 비교하는 방식이다.
+== 같이 보기 ==
+* [[추천 알고리즘]]
+* [[콘텐츠 기반 필터링]]
+* [[TF-IDF]]
-현재 넷플릭스에서 사용하는 알고리즘은 협업 필터링을 기반으로 이를 고도화한 '모델 기반 협업 필터링(Model-based Collaborative Filtering algorithm)'이다. 이는 지난 2006년 넷플릭스에서 100만 달러의 상금을 걸고 공모한 '넷플릭스 프라이즈(Netflix Prize)'를 통해 개발됐다. 당시, 넷플릭스 측에서는 응모자들에게 사용자 48만 명이 영화 1만 7,000편에 준 점수를 모은 데이터 뱅크를 제공했다고 한다. 이 때문에 넷플릭스는 어떤 영화가 어떻게 관객을 사로잡는지, 어떻게 해야 흥행작을 만들 수 있는지 세계에서 가장 잘 아는 회사라는 평가를 받기도 합니다. 넷플릭스는 전체 영화 시청의 75%가 추천을 통해 이뤄진다고 전하며 협업 알고리즘의 활용은 긍정적인 결과를 가져왔다고 말한다.
+{{알고리즘|검토 필요}}

위키원

이름공간

변수

보기

더 보기

검색