검수요청.png검수요청.png

검색엔진

위키원
이동: 둘러보기, 검색
검색엔진

검색엔진(search engine)은 인터넷 사이트에서 원하는 정보를 검색하여 찾아주는 프로그램이다. 서치엔진이라고도 한다. 구글, 네이버 등 인터넷 포털 사이트는 검색엔진 기능을 가지고 있다.

이와 별개로 특정 웹사이트 내에서 원하는 정보를 찾아주는 검색엔진도 있다. 이러한 사이트별 검색엔진은 시스템 통합(SI) 사업에 주로 사용한다. ㈜레피아의 레피아(Repia), ㈜아이알에스소프트코리아의 아이트리니티(iTrinity), ㈜엑스퍼넷의 엑스퍼서치(eXperSearch), ㈜다이퀘스트의 마리너(Mariner), ㈜코난테크놀로지의 독크루저(Docruzer), ㈜와이즈넛의 서치포뮬라원(Search Formula-1), ㈜오픈베이스의 엑스텐(XTEN) 등의 제품이 있다.

블록체인 분야에서 탈중앙화된 분산형 검색엔진을 운영하기 위한 암호화폐네뷸러스가 있다.

아사달 도메인 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 믿을 수 있는 도메인 회사

상세

검색엔진은 인터넷에서 자료를 쉽게찾을 수 있게 도와주는 소프트웨어이다. 인터넷 기술이 발전하면서 누구든지 방대한 양의 정보에 접근할 수 있게 되었다. 이 때, 필요한 자료, 원하는 자료를 찾기 위해서 검색을 실시하는데 그 검색을 가능케 해 주는 것이 바로 검색엔진이다. 인터넷에서의 검색은 수많은 웹페이지에 흩어져 있는 자료들을 요구에 맞추어 찾아내는 것이다. 때문에, 사용자가 원하는 정보를 신속하고 정확하게 찾기 위해서는 다양한 기능을 갖춘 검색엔진이 필요하다. 이를 위해 검색엔진이 갖춘 대표적 기능이 바로 필터링이다. 자료를 걸러내는 기술인데, 사용자가 요구하는 기준에 따라 자료를 걸러내어, 선별하여 보여준다.

예를 들어, 자료는 성격에 따라 블로그, 사이트, 개인 홈페이지, SNS, 백과사전, 동영상, 사진, 삽화, 도서 등으로 나뉜다. 또한 자료가 등록된 기간, 검색어와 일치하는 수준, 국가별 분류 등을 통해 자료 검색을 보다 세분화하여 진행할 수 있는 것이다. 이와 같은 검색엔진은 어떤 기준을 가지고 어떤 방식으로 자료를 찾아낼 것인지 조금씩 다르기 때문에 검색 결과 역시 차이를 보인다. 대한민국의 대표적 검색엔진으로는 다음(Daum), 네이버(Naver)가 있으며, 전 세계적으로 가장 많이 사용되는 검색엔진으로는 구글(Google), 가장 오래된 검색엔진으로는 야후(Yahoo)가 있다.[1]

발명

검색엔진이 등장하기 전, 컴퓨터들은 파일을 주고 받을 수 있도록 단순히 함께 연결되어 있는 수준에 불과하였으며 사람들은 서버에 공유 파일을 업로드하려는 사람들과 그러한 파일을 다운로드하려는 사람들로 나뉘었다. 서버를 한데 모으면 한 군데에서 많은 파일을 쉽게 찾을 수 있었지만 파일의 위치를 알지 못하면 여전히 해당 파일의 다운로드가 쉽지 않았다. 몬트리올에 위치한 맥길대학교(McGill University)에서 학업 중이던 앨런 엠티지(Alan Emtage)[2] 역시 이러한 상황에 직면하였다. 소프트웨어 법인을 설립하려고 엠티지는 대학교에서 사용하는 인터넷을 통해 무료 응용프로그램을 검색하였다. 처음에는 일일이 직접 응용프로그램을 검색하여 자신이 찾은 소프트웨어의 데이터베이스를 구축하였지만 컴퓨터 과학자가 된 후 이 작업을 수행하는 프로그램을 제작하였다.

1990년 최초의 검색엔진이 탄생하였다. 프로그램 이름은 원래 ‘아키브’였지만 프로그램 이름의 글자 수를 제한하는 유닉스 표준 때문에 ‘아키브(archive)’에서 v를 뺀 ‘아키(Archie)’라는 이름이 탄생하였다. 이 최초의 검색엔진은 현대식 검색엔진과는 많이 달랐지만 원하는 파일의 이름을 알고 있는 경우 파일을 찾는 데 도움이 되었다. 1991년 파일 내에 포함된 텍스트까지 검색할 수 있는 고퍼(Gopher)가 등장하였다. 그 후 검색엔진은 사용자가 검색을 용이하게 할 수 있도록 검색 통계 결과를 사용하기 시작했다. 야후페이지에 대한 설명 부분을 추가하였고 라이코스는 단어의 유사성을 분석하여 관련 사이트를 제공했다. 1995년경에는 사진, 음원, 비디오 검색 기능이 추가된 알타비스타(Altavista)가 등장하였다.[3]

역사

1989-1996년

의 탄생부터 구글의 등장 전까지의 시기로, 이 시기에 비교적 작은 단위이지만 웹 검색의 기본요소인 크롤링인덱싱 그리고 랭킹의 기본 알고리즘이 개발됐다. 예를 들어, 1990년에 공개 FTP 서버에 있는 파일을 검색할 수 있는 아키(Archie)라는 프로그램, 1993년에 웹 문서의 제목과 하단의 목차 일부만 색인하는 점프스테이션(Jump Station)이라는 최초의 웹 로봇, 1994년에 문서 전체를 검색해주는 최초의 엔진인 웹크롤러(WebCrawler) 등이 있다. 한국 최초의 검색엔진은 1995년 충남대학교 화학공학과 대학원생 김영렬 씨가 개발한 ‘코시크’였으며, 같은 해에 비즈니스 목적으로 만들어진 한글과컴퓨터의 ‘심마니’가 서비스를 시작했다. 1996년에는 대구대학교 학생이던 김성훈 씨가 개발한 ‘까치네’, 계명대학교 학생이던 박민우 씨가 개발한 ‘와카노’ 그리고 카이스트의 승현석 씨가 개발한 ‘미스다찾니’ 등의 검색엔진이 잇달아 등장했다.

까치네는 한국에서는 처음으로 자동 로봇 엔진을 활용한 검색엔진으로 인터넷 주소는 물론 뉴스 검색까지 제공했지만 연관성이 높은 순으로 찾아주던 게 아니어서, ‘장동건’을 검색하면 ‘마장동 건어물시장’이 제일 앞에 나왔었다는 일화가 유명하다. 당시 검색엔진은 자동 로봇 엔진, 연관성 알고리즘, 자연어 처리 등의 기술을 적용하며 검색 품질을 높이려고 노력 했지만 인터넷 사용자가 적고, 콘텐츠가 부족했으며, 인프라가 미흡했다. 더불어 자금이 부족하다는 넘기 힘든 벽에 부딪혀 크게 대중화되지 못했다.[4]

1997년-2001년

대한민국에서 검색서비스가 활성화되기 시작한 것은 야후, 알타비스타와 라이코스 등 외국계 검색엔진이 들어오기 시작한 1998년 말 이후다.[5] 1994년에 미국에 설립된 야후구글이 설립된 1998년 전까지 4~5년간 왕좌를 지켰다. 이 시기 야후의 검색서비스는 편집자들이 수작업으로 콘텐츠의 주제에 따라 계층구조로 분류한 디렉토리 검색엔진으로 인기를 끌었다. 한국에서도 90년대 검색 시장의 왕좌는 야후코리아였다. 야후코리아의 독주가 이어지던 1999년에 독자적인 검색엔진을 사용하는 세 개의 한국 포털이 등장했다. 한국 최초로 자연어 검색을 표방한 엠파스는 ‘야후에서 못 찾으면 엠파스’라는 노골적인 문구와 더불어 눈먼 토끼는 야후, 눈 큰 토끼는 엠파스를 상징하는 광고카피로 눈길을 끌었다.

1997년 5월에는 한메일(Hanmail)이 한국 최초로 웹메일 서비스를 시작했다. 무료 웹메일 서비스로 엄청난 수의 회원을 확보한 다음(Daum)은 1999년에 포털로 새롭게 출발하면서 자신들을 ‘우리 인터넷’이라 부르며 민족감정에 호소했다. 99년 푸른 남해와 만주벌판을 배경으로 ‘야후는 다음이 물리치겠습니다’라는 지면광고를 실었다. 다음은 이메일과 검색뿐 아니라 카페(Cafe)라고 불리는 커뮤니티 서비스를 제공함으로써 순식간에 야후코리아를 위협하는 포털 강자로 자리 잡았다. 카페 서비스는 99년 5월 선보였는데, 한국 온라인 커뮤니티의 역사는 곧 ‘다음 카페’의 역사라고 할 수 있을 만큼 엄청난 인기를 끌었다. 한편, 네이버는 1997년에 삼성SDS㈜의 사내 벤처로 출발하여 1999년에 분사하면서 포털 사업을 시작했다. 치열한 경쟁 구도 속에서 후발주자인 네이버는 일반 문서에서 신문기사까지 한꺼번에 보여주는 통합검색을 선보이며 검색 서비스에 주력하는 전략을 채택했다.

이때 지금까지도 회자되는 유행어를 남기고 4년 만에 한국에서 자취를 감춘 한 추억의 포털 사이트가 등장한다. 바로 라이코스(Lycos)다. 1999년 당시 가수 엄정화와 검은색 래브라도 리트리버가 출연해 “잘했어, 라이코스!”라는 당대 최고의 유행어를 만든 라이코스는 국내외에서 야후를 위협하며 빠르게 성장했다. 라이코스는 미국 카네기멜론대학교 연구소의 컴퓨터학자인 마이클 로렌 멀딘(Michael Loren Mauldin)[6]의 검색엔진 프로젝트로 시작했다. 1994년 이 프로젝트를 ‘라이코스’라 짓고 상용화했다. 설립 9개월 만인 1996년 뉴욕 증시 역사상 가장 빨리 나스닥 상장에 성공했다. 1999년에는 40여 개 국가에서 인터넷 검색엔진 1위 자리에 올라 2000년대 초반까지 야후와 치열한 경쟁을 벌였다. 닷컴 버블(dot-com bubble)이 터지기 직전인 2000년 5월, 라이코스의 몸값은 천정부지로 올랐고, 스페인 통신사 텔레포니카가 라이코스를 125억 달러(약 15조 원)에 인수했다. 그런데 텔레포니카는 닷컴버블 사태가 터지자 그대로 주저 앉고 만다. 사실 1999년이 라이코스의 처음이자 마지막 전성기였고, 2000년대에 들어서면서 구글에 밀리기 시작해 점유율이 크게 하락했으며, 2001년 결국 적자로 돌아섰다.

텔레포니카는 인수 4년 만인 2004년 라이코스를 다시 M&A 시장에 내놨다. 이때 한메일이란 이름으로 한국 최초의 웹 메일 서비스를 열었던 다음(현 카카오)이 9,500만 달러(약 1,150억 원)의 헐값에 라이코스를 인수했다. 텔레포니카 인수가의 1/100도 안되는 가격이다. 당시만 해도 변방의 한국 회사가 한때라곤 해도 글로벌 1위를 넘보던 라이코스를 인수한 것이 논란이 되었던 사건이었다. 각종 언론들은 다음이 ‘헐값에 라이코스를 주웠다’고 평가했지만 바닥 아래 지하실이 있었다. 다음이 라이코스 사업의 구조조정을 단행하고 국외사업 부문의 손실을 줄이는데 노력하긴 했지만 큰 반전은 없었다. 다음도 결국 2010년 국외사업을 접겠다고 발표하면서 라이코스 매각을 결정했다. 이때 라이코스는 인도계 광고대행사업자인 와이브랜트(Ybrant)에 3,600만 달러(약 438억원)에 매각됐다. 다음이 인수했던 금액의 절반도 안 되는 수준이다. 이 과정에서 다음과 와이브랜트 간 소송전을 벌이기도 했는데, 여전히 다음은 와이브랜트에 매각대금 중 1,600만 달러는 받지 못한 것으로 알려져 있다.

1997년은 구글이 등장한 해이기도 하다. 검색의 역사는 구글 이전과 이후로 나뉜다. 1990년대 말까지 야후는 수많은 웹페이지를 일일이 선별·분류하고 디렉토리화 해서 검색자가 찾을 만한 사이트에 우선 순위를 부여하는 정성스러운 수작업을 통해 검색 결과의 신뢰도를 확보하고 있었다. 그러나 1998년쯤부터는 디렉토리 작업에 아무리 인력을 투입한다 해도 웹의 증가 속도를 따라잡을 수 없었다. 그래서 외부 검색엔진 업체의 도움을 받기 시작했다. 그 무렵 야후가 한 신생업체와 검색엔진 서비스 계약을 체결했다. 이 계약이 몇 년 뒤 인터넷 업계의 판도를 뒤바꿀 엄청난 사건이 되었다.

그 신생업체는 당시 야후의 최고경영자(CEO) 팀 쿠글(Tim Koogle)과 이름이 흡사한 구글(Google)이었다. 당시 구글은 야후가 정한 최저가 보다 훨씬 낮은 가격에 계약을 체결했기 때문에 돈도 안되고, 야후의 검색 결과를 실제로 구글이 제공하고 있다는 것을 소비자들이 알 수도 없었으므로 브랜드 인지도에도 도움이 안되는 프로젝트를 맡은 격이었다. 구글의 젊은 창업자 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)이 주목한 것은 야후를 통해 유입되는 검색 요청이라는 데이터였던 것이다. 이후 구글 검색엔진의 성능이 수직으로 상승하기 시작한다. 이미 야후·라이코스·알타비스타·MSN 등 선발 주자들로 완전히 레드오션이 된 것처럼 보였던 검색 시장에서 불과 2년 만에 구글은 야후를 따돌리고 업계 1위가 된다. 야후는 뒤늦게 구글 인수를 타진했지만 이미 구글의 성장세는 야후가 감당할 수 있는 수준을 넘어선 뒤였고 그때부터 야후는 서서히 몰락의 길을 걷다 지난 2017년 버라이즌에 인수돼 역사 속으로 사라졌다.[4]

2002년-2010년

2002년에 네이버는 한국 포털의 역사에서 가장 중요한 서비스인 ‘지식iN’을 제공하기 시작했다. 지식iN은 이용자가 필요한 정보를 웹에서 찾는 일반적인 검색과 달리 거꾸로 네티즌이 갖고 있는 지식을 웹으로 끌어내는 방식으로 설계돼 있었다. 이 당시 한국에서는 한글로 검색을 하려고 해도 검색할 콘텐츠가 많지 않았다. 검색엔진의 성능과 상관 없이 검색을 할 만한 온라인 콘텐츠 자체가 부족했기 때문이다. 네이버는 검색엔진의 성능을 높이는 것보다 검색을 할 콘텐츠 자체를 만들어 내는 데 집중했던 것인데 훌륭한 해법이었다. 나중에는 네티즌들이 무료로 제공한 지식을 자체 데이터베이스처럼 독점적으로 활용한다는 게 비판을 받기도 했다. 당시만 해도 네이버는 포털서비스 다음을 좇아가는 형국이었다. 이 때 그 유명한 전지현의 광고가 나왔다. 전지현의 ‘난 네이버 카페로 간다’ 광고를 계기로 한국 1위 포털 사이트로 자리잡기 시작했다. 당시 하루평균 30만 명 대의 방문자로 만년 2등이었던 네이버가 전지현의 광고를 방영하자마자 하루평균 89만 명의 방문자를 기록하며 업계 1위로 등극했다.

이 시기는 구글이 검색 가이드라인을 제시하며 콘텐츠 제공자들과 검색결과를 개선하기 위한 노력을 본격화한 시기다. 급속히 늘어나는 다양한 스패밍 행위에 대응하는 알고리즘 개발과 업데이트가 본격적으로 진행된 시기다. 예를 들어, 2003년 한 해에만 카산드라(Cassandra), 도미닉(Dominic), 에스메랄다(Esmeralda) 등 여러 번의 알고리즘 업데이트를 통해 링크 스패밍, 키워드 스터핑 등의 기법을 탐지하고 필터링하기 시작했다. 2005년에는 지오타깃팅 (Geo-targeting) 기능을 도입하여 사용자의 위치 정보를 고려한 검색 결과를 제공하기 시작했다.[4]

과정

온라인에 존재하는 웹페이지는 수억개이다. 검색엔진들이 이러한 웹페이지의 모든 정보들을 가져다가 분석하고 저장해 사용자의 검색 결과에 뜨게 만드는 과정이 있다.

크롤링

검색엔진이 웹페이지데이터를 수집하기 위해 가장 먼저 하는 일은 바로 크롤링이라 불리는 작업이다. 크롤링은 웹 크롤러를 이용해 웹페이지 정보를 가지고 오는 것을 말한다. 이러한 작업은 보통 사이트맵에서 시작된다. 웹 크롤러는 웹사이트를 방문한 다음, 그 웹사이트에 있는 모든 링크들을 타고 다니며 새로운 페이지를 찾는다. 이러한 일을 끝없이 하는 것이다. 크롤러는 단순히 정보만 수집하는 게 아니라 웹사이트의 문제점 역시 살펴본다. 깨진 링크나 변경사항 같은 것들도 정보 안에 포함해 가져가고는 한다.

또한 크롤러는 DOM 형식의 웹페이지를 볼 수 있어 그 안에 있는 텍스트를 읽을 수 있다. 따라서 이미지, 플래시는 웹 크롤러가 인식할 수 없다. 그러니 검색엔진 최적화(SEO) 작업 시 크롤러에게 이미지를 인식시키기 위해 alt txt 태그를 달아 주어야 한다. 이렇듯 크롤러는 여러 링크를 넘나들며 웹페이지에 관한 데이터를 검색엔진 서버로 가져오는 역할을 한다. 만약 자신의 웹사이트가 검색엔진에 노출되는 것을 막고 싶다면 robots.txt 파일을 사용해 크롤링 되지 않도록 할 수 있다.[7]

인덱싱

인덱싱은 크롤러가 찾아 가져온 웹페이지의 정보들을 구글 검색 색인에 저장하는 것을 뜻한다. 검색엔진 봇이 정보를 찾으면 브라우저와 같은 방식으로 해당 페이지의 코드를 렌더링한다. 그에 따라 페이지의 모든 콘텐츠와 메타데이터를 분류해 저장하는 작업을 한다. 이러한 작업을 마치면 수집한 모든 단어의 항목에 맞춰 각 페이지의 위치를 색인한다. 수십억 개의 웹페이지로 만들어진 데이터베이스라고 할 수 있다. 엄청난 크기의 도서관에 있는 책들을 하나하나 분류하고 라벨링해 맞춰 정리했다고 이해하면 된다. 그러니 크롤링과 인덱싱은 말 그대로 크롤링이 수없이 많은 웹페이지들의 링크를 타고 다니며 정보를 가져오면 인덱싱이 페이지를 분석해 저장하고 데이터베이스를 구성하는 것으로 정리할 수 있다.

웹사이트가 검색엔진에 의해 크롤링과 색인이 됐다면 검색결과에 노출될 수 있게 된다. 검색엔진은 인덱싱을 통해 저장한 정보로 웹페이지를 평가해, 결과 페이지에 웹사이트를 노출시킨다. 검색어에 포함된 단어들을 분석해 웹페이지를 찾아내고 그게 사용자가 검색한 것에 매치된다고 판단되면 그 페이지를 내보내는 것이다. 여기서 노출되는 기준이 있다. 검색엔진은 사용자가 검색하는 키워드에 따라 색인 내에서 가장 많이 일치하는 페이지가 어떤 것인지 찾아낸다. 즉 웹페이지의 콘텐츠와 사용자의 의도와 일치하는지를 본다. 이런 검색엔진 알고리즘을 사용해 계층적으로 관련 페이지에 순위를 매기는 것이다. 그러니 검색엔진 최적화(SEO)에 있어서 웹사이트를 구성할 때 주제와 콘텐츠가 명확해야 한다. 또한 키워드 역시 잘 설정하여 작업을 해두어야 한다. 이를 위해서는 타이틀 태그나 메타 디스크립션 태그를 사용하면 된다. 그래야 검색엔진이 크롤링과 색인의 과정에서 더 많은 정보를 가져갈 수 있다.

또한 웹페이지는 다른 곳에 많이 링크되고 사용될 수록 검색엔진에 의해 중요한 콘텐츠가 있다고 평가된다. 클릭률이 높고, 트래픽이 많은 인기 사이트일수록 검색 결과 페이지 상단에 표시될 확률이 높아진다. 사이트 속도가 빠른지, 모바일에 최적화가 되어있는지까지 살피고 있으니 웹사이트를 항상 주의깊게 관리해야 한다. 깨진 링크나 품질이 낮은 페이지가 있다면 검색엔진이 웹사이트를 좋지 않다고 평가할 가능성이 높기 때문에 이 점도 신경써야 한다.[7]

검색엔진 최적화

검색엔진 최적화(search engine optimization, SEO)는 검색엔진으로부터 웹사이트웹페이지에 대한 웹사이트 트래픽의 품질과 양을 개선하는 과정이다. 웹 페이지 검색엔진이 자료를 수집하고 순위를 매기는 방식에 맞게 웹 페이지를 구성해서 검색 결과의 상위에 나올 수 있게 한다. 웹 페이지와 관련된 검색어로 검색한 검색 결과 상위에 나오게 된다면 방문 트래픽이 늘어나기 때문에 효과적인 인터넷 마케팅 방법 중의 하나이며 비용처리 없는 마케팅이라고 할 수 있다. 기본적인 작업 방식은 특정한 검색어를 웹 페이지에 적절하게 배치하고 다른 웹 페이지에서 링크가 많이 연결되도록 하는 것이다. 구글 등장 이후 검색엔진들이 콘텐츠의 신뢰도를 파악하는 기초적인 지표로 다른 웹사이트에 얼마나 인용되었나를 사용하기 때문에 타 사이트에 인용되는 횟수를 늘리는 방향으로 최적화한다.

하지만 네이버 등 한국의 포털 사이트의 경우, 검색엔진의 우선순위 배치에 해외와 다른 기준을 적용하고 있으며 보편적인 SEO를 적용시 경우에 따라 오히려 스팸으로 분류될 수 있다. 이는 자사 블로그에 노출 우선순위를 두었기 때문이며, 한국의 검색엔진에 노출되기 위해서는 사이트 콘텐츠가 웹문서가 아닌 블로그 포스트로 등록되는 방향으로 최적화해야 한다. 또한 검색 키워드와 별개로, 블로그 유입율이 뛰어난 기존 키워드들이 페이지에 분포한 정도를 추가 지표로 삼기 때문에, 기존 네이버 블로그에 인기있는 키워드를 삽입하는 형태로 최적화한다. 티스토리, 이글루스 등 대형 블로그 플랫폼의 경우, 네이버에서 블로그 포스트로 등록되는 것이 어렵지 않으나, 워드프레스 등 설치형 블로그 플랫폼을 사용하는 경우, 네이버 블로그 영역 노출을 위해 몇 가지 작업을 필수적으로 수행해야 한다.

2019년도 이후로 한국 내 구글의 점유율이 30%를 넘어서고 있고, 네이버의 점유율이 점점 하락하고 있으며, 구글은 네이버와같은 블로그 우선노출과 같은 정책이 없고 구글 애즈를 제외한 다른 검색결과에 한해서는 검색엔진 최적화 여부에 따라 웹사이트를 랭킹 시키고 있기 때문에 검색엔진 최적화(SEO)의 중요성이 점점 부각되고 있는 실정이다.[8] 검색엔진 최적화는 여러 요인에 영향을 받는다. 최적화를 통해 노출도를 높일 수 있는 여러가지 방법이 있다.

문법에 맞는 HTML 작성

<title> 태그에는 사이트 제목을 기재하고, 'div' 태그를 사용해 줄을 바꾸며, 'strong'과 'em' 태그를 활용해 강조하고 싶은 키워드에 붙이는 등 적절한 HTML 소스로 홈페이지를 구성하는 것은 결과적으로 검색엔진에게도 이해하기 쉬운 웹 문서가 된다. 따라서 유사한 내용의 웹 문서가 있을 경우 상대적으로 이러한 문서의 순위가 높아진다.

구체적인 페이지 제목 구성

HTML 문서의 헤더에 들어가는 페이지 제목(title)은 구체적이고 간결하게 구성해, 검색 결과 화면에서 텍스트가 잘리지 않도록 한다. 유인 키워드를 반복하는 것을 삼가하고, 반복적이고 틀에 박힌 제목을 피해야 하며, 제목의 시작이나 끝에 사이트의 이름을 포함하는 것이 좋다. 나머지 이름은 하이픈( – ), 콜론( : ), 막대(ㅣ)를 사용하면 된다.

메타 태그 활용
  1. 타이틀 태그(title tag) : 메타태그는 웹페이지를 검색엔진에 검색했을 때 노출되는 제목이다. 메타태그는 단순히 검색 결과에만 노출되는 것이 아니라, 브라우저 상에도 노출되므로 중요도가 높다. 메타태그가 적용된 모습은 브라우저 내의 개발자 도구를 통해 확인할 수 있고, <title> 요소로 정의된다. title 요소를 정의할 때는 너무 긴 텍스트를 사용하거나 모든 웹페이지의 title에 단일한 제목을 사용하지 않도록 유의해야 한다.
  2. 디스크립션 태그(description tag) : 메타태그 중에는 타이틀만큼이나 중요한 요소가 있다. 바로 <description>이다. 메타 디스크립션이라고도 부르는데, 해당 웹페이지의 설명을 요약한 한 두 줄의 문장을 뜻한다. 대부분의 사용자는 메타 디스크립션을 보고 해당 웹페이지에 자신이 찾고 있던 정보가 담겨있는지 아닌지를 판단한다. 따라서 읽는 입장에서 최대한 잘 읽히는 문장으로 작성하는 것이 좋다. 또한 되도록 페이지별 메타 디스크립션은 반복적이지 않은, 다른 내용의 키워드로 작성되는 편이 좋다.
  3. 로봇 태그(robots tag) : 메타태그 중 로봇태그는 웹페이지 별 검색로봇의 접근여부를 설정할 때 활용할 수 있는 태그이다. 일반적으로 각 검색엔진에는 웹페이지를 크롤링하는 검색로봇이 있다. 여기서 크롤링의 의미는 검색로봇들이 내 웹페이지를 돌아다니며 데이터를 수집하는 행위를 뜻한다. 일반적으로 검색결과에 노출되는 콘텐츠들은 크게 크롤링 과정과 색인을 거친다. 이때 로봇 태그의 속성을 어떻게 정의하느냐에 따라 이 검색 로봇이 웹페이지를 크롤링하고 색인할 수 있는 권한을 받거나 받지 못할 수 있다.
  4. 캐노니컬 태그(canonical tag) : 여러 URL을 가진 웹페이지가 있을 떄 해당 페이지의 대표 URL을 설정할 수 있는 태그이다. 한 페이지의 대표되는 URL을 지정함으로써, 검색로봇이 웹페이지를 크롤링할 때 중복 URL로 인한 페널티가 적용되게 하지 않게끔 도와주는 역할을 한다. 각 페이지 별 다른 정보를 담고 있는 경우에는 캐노니컬 태그를 적용하면 안 된다. 예를 들어 구글은 다른 URL을 가지고 있는 웹페이지가 같은 내용을 담고 있는 경우, 이를 어뷰징 행위로 보고 페널티를 부과한다. 그렇게 페널티를 받으면 웹페이지의 색인이 불가능해지거나 저품질 콘텐츠로 평가받을 위험이 커진다. 일반적으로는 이와 같은 불상사를 방지하기 위해 캐노니컬 태그를 활용하게 된다.[9]
이미지에 alt 속성 기재

alt 속성이란, alternative의 의미로 이미지가 로딩되지 못했을 때 대신 표시되는 텍스트다. 주로 홈페이지 내부에는 기업명, 로고, 배너, 상품명, 카피 등을 이미지로 표현하는데 이 경우 반드시 <img> 태그에 alt 속성을 넣어 적절한 대체 텍스트를 기재해야 한다. 이미지 속에 그려진 문자는 검색엔진에 의해 인식되지 않기 때문이다. alt 속성을 붙이면 HTML 코딩과 유용성 측면에서도 좋고, 시각장애인용 스크린리더가 사용될 때 이미지 대신 alt 속성 값을 읽어 대략 어떤 이미지인지 파악할 수 있도록 도움을 준다. 검색엔진 또한 이미지를 발견하면 alt 속성 안의 텍스트를 통해 인덱싱 작업을 하기 때문에 SEO에 좋다.

이미지 맵에 중요한 링크 사용 피하기

이미지 맵은 <map> 태그와 <area> 태그를 이용해 한 장의 사진에 여러 개의 링크를 설치하는 것이다. 이미지 맵은 검색엔진이 링크를 따라 이동할 때 방해가 될 수 있으므로, 중요한 링크 설치는 피한다.

플래시 전용 페이지 피하기

대부분의 검색엔진은 플래시 애니메이션텍스트를 수집할 수 없으며, 그 링크 또한 사용할 수 없다. 예를 들어, 홈페이지에 Flash만 놓고 HTML 소스에 <a> 태그를 코딩해 작성하지 않는 경우, 검색 로봇은 앞 뒤 페이지로 이동할 수 없어 검색엔진 데이터베이스에 수집되지 않는다. 결과적으로 해당 홈페이지는 검색 결과에 잘 나타나지 않게 된다.

앵커 태그를 활용한 적절한 키워드 배치

키워드가 본문에 기술되어 있지 않은 홈페이지는 검색 결과에 랭크되기 어렵다. 구글의 경우, 앵커 텍스트 링크로 해당 페이지에 키워드가 포함되어 있는지 체크하기도 한다. 앵커 텍스트란, 홈페이지에 삽입되는 링크 위에 있는 설명 문구(text)를 의미한다. 앵커 태그란, 서로 다른 페이지 사이를 이동하거나 페이지 내부에서 특정한 위치로 이동할 때 사용한다.

여러 개의 페이지로 나누어진 콘텐츠 검색 최적화

시리즈 및 연재 등과 같이 한 주제로 글이 길어질 경우, 동일 제목을 가진 콘텐츠를 여러 페이지로 나누어 만들게 된다. 이때 해당 페이지를 검색엔진에게 잘 알리기 위해 다음과 같은 방법을 사용한다. 워드프레스와 같은 블로그형 홈페이지나, 그누보드/제로보드와 같은 게시판 형태에서 유용하게 쓰일 수 있다.

  1. 전체보기 페이지를 만들어 제공 : 각각의 나누어진 페이지에 rel=”canonical” 링크를 삽입해 전체보기 페이지를 표시한다.
  2. rel=”next” 및 rel=”prev” 링크로 연재글 사이의 순서를 알림: 구글에서는 해당 페이지를 논리적 순서로 처리하여 페이지의 링크 속성을 통합하고 검색자에게 주로 첫 번째 페이지를 표시해 준다.
모든 페이지가 유입 페이지가 되도록 사이트 구성

사용자가 꼭 홈페이지의 메인 페이지만 방문하는 것은 아니다. 가령, 구글에서 키워드나 내용으로 검색하면, 검색 결과에는 원하는 정보가 있는 콘텐츠 페이지가 나타나고, 클릭하면 해당 페이지로 유입된다. 홈페이지 내 어떤 페이지로 방문이 유입될지 모르기 때문에 모든 페이지에는 메인 페이지로 이동할 수 있는 링크를 설치해 전체 사이트의 동선을 개선하는 것이 무엇보다 중요하다. 이것이 곧 사용자 편의성과도 연결된다.

HTTPS 사용 권장

동일사이트라면 http로 서비스 하는 것보다, https로 서비스 할 경우 구글 검색엔진에서 전체 점수의 약 1% 정도에 해당하는 랭킹 가산점을 부여한다.[10]

대표 검색엔진

구글

현존하는 최고의 검색엔진은 구글(Google)이라고 여겨진다. 구글링(googling)이란 단어가 검색의 대명사가 된 지도 오래다. 구글 검색엔진은 전 세계 인터넷 사용자들의 필수품이 됐다. 그도 그럴 것이 구글은 전 세계에서 가장 많이 사용되는 검색엔진이다. 전 세계 PC 검색엔진 시장에서 압도적인 점유율을 차지하고 있다. 특히 모바일태블릿 PC 검색엔진 시장에서는 95% 이상의 점유율을 차지하고 있다.[11]

구글은 빠른 검색을 위해 가장 먼저 구글봇이라 불리는 문서 수집기(web crawler)를 통해 인터넷상의 수많은 웹사이트들의 링크를 따라 다니면서 문서를 수집한다. 문서가 수집되면 문서 제목, 페이지 내용, 목차, 기타 등등으로 영역을 나누어 추출하고 분석한 뒤, 검색어가 들어올 것에 대비해 이 데이터들을 검색 DB에 적절히 색인한다. 구글에 따르면, 2016년 기준 구글의 문서 색인 규모는 10억 기가바이트(GB)를 넘었고, 이를 구축하는데 소요된 시간만 100만 컴퓨팅 시간이다. 다음 절차는 이렇게 수집한 문서를 빠르게 순위화해 제시하는 것이다. 이용자의 검색어에 따라 가장 적절한 문서를 찾는 작업이다. 수많은 문서들이 있기 때문에 가장 적절한 문서를 사람이 찾는다는 것은 불가능하다. 구글은 검색결과 순위화를 위해 기계적인 알고리즘을 개발해 적용하고 있다. 구글은 검색에 있어서 “직접 조치보다 알고리즘 이용”을 강조한다. 구글은 “직접 조직한 정보보다 기계 솔루션을 선호”한다면서, “알고리즘은 확장이 가능하기 때문에 기능을 개선하는 경우 한 개가 아닌 수많은 검색결과 페이지가 개선된다”는 이유를 제시한다. 구글 알고리즘은 웹사이트 약관, 콘텐츠 날짜, 위치, 페이지랭크 등 200개 이상의 요인을 적용해 이용자가 원하는 것을 순위화해 제공하고 있다.

문제는 이 200여 개가 무엇이며 어떤 가중치를 적용 받아 어떤 방식으로 작동되고 있는지를 전혀 모른다는 점이다. 기계가 처리하고 있으니 사람이 하는 것보다는 문제가 없을 것이라는 주장만 존재한다. 게다가 알고리즘에 수많은 요인들이 복잡하게 적용되면서 구글 내에서도 시스템 작동을 완전하게 아는 개발자는 드물 정도다. 물론, 자세한 알고리즘의 작동방식을 구글이 공개한다고 해도 큰 효과는 없다. 실시간으로 요인을 수집해 복잡한 수식을 적용해 작동하고 있는 가운데 이용자의 반응에 따라 알고리즘의 작동 방식도 순식간에 변하기 때문이다. 구글이 직접 밝힌 바에 의하면, 구글은 지난 2011년에만 538개의 검색 기능을 개선한 바 있다. 사실 알고리즘은 기업의 영업 노하우에 속해 지적재산권으로 보호받는다. 또한, 내부의 작동 방식을 자세히 공개할 경우 어뷰징과 같은 기계적인 다량 문서 생산에 이용될 수 있다. 하지만, 검색엔진이 제시하는 정보의 순위가 기존의 어떤 미디어 메시지보다 강력한 영향력을 행사하고 있다 보니, 알고리즘 요인을 분석하려는 시도는 상업적 목적이든 기술 연구 목적이든 다양하게 이루어지고 있다.[12]

틱톡

뉴욕타임즈에 따르면 Z세대(1990년대 중반~2000년대 초반 출생) 사용자의 기본 검색엔진은 구글이 아닌 틱톡(TikTok)이다. 틱톡은 2012년 장위밍이 설립한 중국 기업 바이트댄스의 쇼트 폼 동영상 플랫폼이다. 한국에도 들어와 MZ세대(밀레니얼+Z세대)들에게 없어서는 안 될 애플리케이션 중 하나로 꼽힌다. 짧은 동영상 콘텐츠를 만들어 소통하는 젊은 세대들이 틱톡을 통해 원하는 정보를 검색한다는 사실은 자연스러운 일이다. 틱톡이 검색엔진이라는 주장은 뉴욕타임즈가 처음은 아니다. 2019년 실리콘밸리 벤처캐피털 안데르센 호로위츠(Andreessen Horowitz)는 틱톡의 중국 버전인 더우인(抖音)의 중국 사용자 이용 패턴을 근거로 틱톡의 잠재력을 거론했다. 더우인 동영상은 위치 태그가 돼 자동으로 식당·호텔·관광지 등 이용자들이 가고자 하는 장소를 쉽게 검색할 수 있다는 이유에서다.

주목할 점은 텍스트가 아닌 영상이 검색엔진 기능을 한다는 점이다. 시각적 이미지나 동영상에 익숙한 Z세대들에게 정보 수집과 검색에도 동영상을 선호하는 경향이 늘고 있다. 글로벌 콘텐츠 전송 네트워크(CDN) 업체인 클라우드플레어에 따르면 틱톡닷컴은 구글을 제치고 2021년 세계에서 가장 많이 방문한 사이트에 선정됐다. 영국 통신 규제 기구인 오프컴 조사에서도 틱톡은 현재 영국에서 가장 빠르게 성장하는 성인용 뉴스 소스이고 18세 이상 인구의 7%가 사용하고 있는 스마트폰 앱이다. 이에 따라 일각에서는 “구글 검색이 죽어 가고 있다”고 주장한다. 구글의 위기론은 외부의 시기 어린 비판에 그치지 않는다. 구글 내부에서도 이러한 상황을 인정하고 있기 때문이다. 2022년 7월 열린 한 기술 콘퍼런스(Brainstorm Tech 2022)에서 구글의 수석 부사장 라가반 프라바카르(Raghavan Prabhakar)은 자체 조사 결과를 인용하며 약 40%의 젊은이들이 점심 식사 장소를 검색할 때 구들 지도나 검색이 아니라 틱톡이나 인스타그램을 이용한다고 밝혔다. 아직 구글 검색 기능의 종말을 논할 상황은 아니지만 세부적으로 들여다보면 모든 검색에서 구글이 우위를 점하고 있는 것은 아니다.

구글은 검색엔진 기능을 개선하고 있다. 검색엔진에 이미지와 동영상을 적극 도입하고 있다. 2019년부터 일부 검색 결과에 틱톡 동영상을 적용했고 2020년에는 1분 미만의 세로 동영상을 공유하는 유튜브 숏츠를 출시하며 검색 결과에 포함시켰다. 기성세대는 궁금한 게 생기면 구글에서 검색하지만 Z세대는 동영상 공유 플랫폼을 찾는다. 이런 의미에서 틱톡은 소통과 공유의 플랫폼을 넘어 검색엔진이자 발견 플랫폼으로 진화하고 있다. 심지어 틱톡은 구글뿐만 아니라 유튜브까지 위협한다. 비즈니스 인사이더는 2024년 틱톡의 광고 수익이 유튜브를 추월할 것이라고 예측했다. 물론 틱톡의 검색엔진 한계를 지적하는 비판적 시각도 있다. 틱톡 뉴스 주제에 대한 검색 결과로 제공된 동영상 5개 중 1개(약 20%)에 잘못된 정보가 포함돼 있다는 연구 결과도 있고 틱톡이 구글보다 더 당파적인 검색 결과를 산출한다는 주장도 나온다. 그럼에도 불구하고 Z세대의 감성을 녹여 내는 틱톡이 가진 잠재력은 무시하기 어렵다.[13]

(Bing)은 마이크로소프트(Microsoft)사에서 개발한 검색엔진으로, 구글에 이어 두 번째로 인기 있는 검색엔진이다. 마이크로소프트가 기존에 개발했던 라이브 검색과 2008년 인수한 파워서치 기술을 결합한 서비스이다. 마이크로소프트에서 개발한 라이브 검색은 시장에서 매우 낮은 점유율을 차지하고 있었다. 이에 마이크로소프트는 2008년 파워서치 기술을 인수하고, 이 기술과 기존의 라이브 검색을 결합하여 2009년 쿠모(Kumo)라는 코드명의 검색 서비스를 개발하고 있음을 밝혔고, 이어 2009년 5월에는 빙(Bing)이라는 공식 명칭을 채택하고 홍보용 웹사이트를 공개하였다. 이어 2009년 6월 1일, 전 세계에 빙 검색 서비스를 공식적으로 시작하였다.[14] 한편 애플이 기본검색 엔진을 구글로 변경하게 되며, 빙 사용자가 구글로 상당수 전환되었다.

야후

야후(Yahoo)는 한국에서는 폐업하였지만, 전 세계에서는 구글, , 바이두에 이어 4번째로 가장 높은 점유율을 가지는 검색엔진이다. 2010년까지 검색 포털사이트의 독보적인 존재였으나, 구글이 야후를 추월한 2010년 이후 빠르게 시장 점유가 하락하였다. 야후는 기본적으로 디렉토리(directory) 검색을 전문으로 하지만 동시에 검색엔진도 제공하며 유즈넷(use net)과 이메일(e-mail) 주소도 검색할 수 있다. 적은 데이터베이스(DB)를 갖고 있으면서도 양질의 검색 결과를 제공하는 검색엔진으로 꼽힌다. 전 세계 월드와이드웹(www:world wide web) 서버가 분야별·장르별로 메뉴화되어 있어 원하는 분야를 검색하는 데 편리하다.[15] 한편 야후재팬은 일본에서 1위를 차지하고 있는 포털이다. 한국에서 야후는 서비스를 종료했지만 일본에서는 여전히 메인 검색엔진으로 자리잡고 있다. 한편 2009년에 야후!가 자체 검색엔진을 포기하고, 빙 검색엔진을 적용하기 시작했는데, 야후! 재팬만 검색엔진을 구글 검색엔진으로 채택했다.[16]

얀덱스

얀덱스(Yandex)는 러시아의 대표적인 검색엔진이다. 1997년 러시아에서 만든 검색인진으로, 러시아 내에서 60~70%의 마켓 점유율을 기록하며 구글을 앞지른다. 또, 수많은 인터넷 기반 서비스와 제품들을 개발한다. 얀덱스는 2012년 4월 기준으로 날마다 150,000,000건 이상의 검색을 처리하며, 2013년 2월 기준으로 50,500,000명 이상이 방문한다. 이 회사의 목적은 사용자들이 생각하는 질문들에 대한 답변을 명시적으로나 암묵적으로 제공하는 것이다. 얀덱스는 우크라이나카자흐스탄에서도 존재감이 매우 큰 편인데, 해당 국가들의 시장에서 모든 검색 결과의 거의 1/3을 제공하며 벨라루스의 경우 전체 검색 결과의 43%를 제공한다.[17]

바이두

바이두(Bidu)는 중국 최대의 검색엔진이다. 중국에서는 접속자 수 1위이고, 전 세계에서는 4위에 위치한다. 알렉사닷컴 트래픽 측정 기준으르는 세계 상위권에 있다. 2000년 바이두가 검색엔진 사이트를 오픈했을 때, 이미 구글, 시나닷컴 등 메이저 포털들이 있었다. 하지만 바이두는 최초로 중국어 검색에 집중했고, 이에 더해 뉴스나 지식검색 등 다양한 서비스를 선보였던 것이 성공으로 이어졌다. 바이두 검색엔진을 사용해보면 중국의 문화적인 특징이 드러나있다. 구글과 달리 대체적으로 무엇에 대한 검색결과가 아닌 어떻게에 대한 검색결과를 추출해준다. 한편 중국은 전체적으로 다른 국가와 전혀 다른 검색엔진의 특징을 보이고 있다. 구글의 점유율이 겨우 2.59%로 전체 시장 점유율에서 4위에 머무르고 있다는 것이다. 이는 중국의 검열 때문일 가능성이 높다. 그래서 중국에서는 바이두 검색엔진의 SEO가 필수적이라고도 할 수 있다. 중국 정부가 구글을 규제함에 따라 바이두는 중국의 검색 시장을 확실히 점유하고 있다.[11]

각주

  1. 검색 엔진 ( search engine )〉, 《네이버 지식백과》
  2. 꼬날, 〈재미있는 검색엔진의 역사〉, 《블로터》, 2006-10-26
  3. 잭 챌리너, 〈죽기 전에 꼭 알아야 할 세상을 바꾼 발명품 1001 - 검색 엔진〉, 《마로니에북스》, 2010-01-20
  4. 4.0 4.1 4.2 류 정화, 〈검색엔진의 역사, 해외 및 국내 히스토리 정리〉, 《콘텐타M》, 2023-07-14
  5. Benj Edwards, 〈검색엔진 등장 20년 ‘정보검색 혁신사'〉, 《아이티월드》, 2010-09-30
  6. 김영우 기자, 〈(브랜드 흥망사) 닷컴 버블과 함께 사라진 '라이코스(Lycos)'〉, 《아이티동아》, 2018-11-13
  7. 7.0 7.1 하이프마크, 〈검색엔진최적화 : 검색엔진이 정보를 얻는 과정〉, 《브런치스토리》, 2021-10-25
  8. 검색 엔진 최적화〉, 《위키백과》
  9. 김아영, 〈검색엔진 치적화(SEO)란?〉, 《요즘IT》, 2022-06-22
  10. 검색엔진 최적화(SEO), 가장 효율적인 방법은?〉, 《가비아 라이브러리》
  11. 11.0 11.1 박준식 기자, 〈국가별 가장 인기 잇는 5가지 검색 엔진〉, 《KtN》, 2023-03-01
  12. 오세욱 한국언론진흥재단 선임연구위원, 〈(테크놀로지와 저널리즘) 구글의 검색 엔진, 어떻게 작동할까?〉, 《동아사이언스》, 2016-09-06
  13. 심용운 SK경영경제연구소 수석연구원, 〈구글, 아직도 최고의 검색 엔진일까(테크트렌드)〉, 《매거진한경》, 2022-10-05
  14. 마이크로소프트 빙〉, 《위키백과》
  15. 야후!〉, 《위키백과》
  16. 야후! 재팬〉, 《위키백과》
  17. 남 보람, 〈외국 검색엔진 종류〉, 《어센트코리아》, 2022-09-13

참고자료

같이 보기


  검수요청.png검수요청.png 이 검색엔진 문서는 인터넷에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.