검수요청.png검수요청.png

표면웹

위키원
(Indexed Web에서 넘어옴)
이동: 둘러보기, 검색

표면웹(Surface Web)은 일반 검색엔진으로 검색이 가능한 콘텐츠의 인터넷 환경으로 구글(Google), 네이버(Naver), 다음(Daum)과 같은 일반 검색 사이트에서 검색되지 않는 딥웹(Deep Web)과는 비교되는 용어이다.

아사달 도메인 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 믿을 수 있는 도메인 회사

개요[편집]

표면웹은 보이는 웹(Visible Web), 인덱싱된 웹(Indexed Web), 인덱싱 가능한 웹(Indexable Web) 또는 라이트넷(Lightnet)이라고 불린다. 월드 와이드 웹의 일부로서 일반 대중이 쉽게 이용할 수 있고 친숙하며 표준 웹 검색 엔진을 사용하여 검색할 수 있다. 표면 웹은 인터넷에 있는 정보의 10퍼센트만 구성되고 어떤 검색 엔진으로도 접근할 수 있는 서버의 공용 웹 페이지 모음으로 만들어진다. 웹사이트나 뉴스, 아울렛, 스포츠 통계 등을 검색할 때 사용하는것이 표면웹이다. 표면웹은 크롤링과 인덱싱이 가능한 웹이다. 웹에서 검색로봇이 사이트를 방문해서 링크를 타고 돌아다니며 모은 결과를 토대로 검색엔진에 노출시키는 인덱싱을 한다.[1]

특징[편집]

검색 엔진은 웹 거미라고 불리는 프로그램의 사용을 통해 인터넷에 페이지의 데이터베이스를 구축한다. 거미는 각 페이지의 복사본을 받아 카탈로그를 만들어 나중에 빠른 검색을 위해 적절한 정보를 보관한다. 새로운 페이지가 연결되면, 그것은 결국 거미들에 의해 검사되고 도달 가능한 페이지 목록, 즉 표면 웹에 추가된다.[2] 표면웹은 1990년 팀 버너 리에 의해 처음 발명된 이후 월드 와이드 웹의 일부였으며, 주요 검색 엔진(구글, 빙, 야후 등)을 사용하여 인터넷 브라우저를 통해 발견할 수 있는 모든 것이기에 가장 친숙한 웹의 일부분이다. 이것은 뉴스를 읽을 때, 아마존에서 어떤 물건을 살 때, 혹은 일상적으로 사용하는 웹사이트를 방문할 때 사용하는 것이고, 또한 전세계의 정부들에 의해 지속적으로 감시되고 있는 웹의 영역이기도 하다. 월드 와이드 웹 콘텐츠의 5% 미만을 차지하는 미미한 수치이지만 딥웹이 500배에서 5000배 정도 더 클 수 있다는 추정을 제시한다.[3]

웹 인덱싱[편집]

웹 인덱싱 또는 인터넷 인덱싱은 웹 사이트 또는 인터넷 전체의 내용을 색인하는 방법으로 구성된다. 이는 사용자가 원하는 정보를 쉽게 찾을 수 있도록 하여 사이트 내비게이션에 초점을 맞춘다. 개별 웹사이트인트라넷은 일반적인 인덱스를 사용할 수 있지만 검색 엔진은 보통 키워드와 메타데이터를 사용하여 인터넷이나 현장 검색에 더 유용한 어휘를 제공한다. 온라인에 기사가 게재된 정기 간행물의 수가 증가함에 따라, 정기 간행물 웹사이트에도 웹 인덱싱이 중요해지고 있다. 웹 색인화 방법에는 '웹 사이트 A-Z 인덱스'라는 것이 있다. 이는 사용자에게 가장 적합한 검색 방법이다. 검색 상자에 입력할 내용을 생각할 필요 없이 목록에서 용어를 선택하기만 하면 된다. 그리고 사용자는 원래 검색 목표를 벗어난 추가 정보를 찾을 수 있다. 이는 사이트와 그 콘텐츠에 대한 사용자 만족도를 높일 수 있으며 사용자는 더 오래 머물거나 사이트를 더 자주 방문할 수 있다. `

검색엔진은 정확한 단어나 구문만 찾아낸다. 사용자가 복수형이 아닌 동의어, 단수형, 첫머리 글자 대신 철자형, 철자가 틀린 단어 또는 텍스트에 절대 나타나지 않는 단어가 포함된 개념을 입력하면 적절한 페이지가 누락될 수 있다. 웹 전체를 검색하는 것은 너무 많은 결과가 검색되기 때문에 누락된 페이지는 보통 문제가 되지 않는다. 그러나 개별 웹 사이트에서는 모든 관련 페이지를 반환하는 것이 필수적이다. 검색 엔진은 특정 검색 구문이 포함된 페이지를 선택하는데, 그 페이지가 완전히 다른 주제일지라도 선택하게 된다. 주요 상업용 검색엔진은 메타 태그, 키워드 빈도, 링크 등을 기반으로 복잡한 순위 시스템을 개발했기 때문에 인터넷 전체를 검색할 때 큰 문제가 되지 않는다.[4]

메타데이터 웹 인덱싱은 메타데이터 태그 또는 메타 태그 필드 내의 웹 페이지 또는 웹 사이트에 키워드 또는 구를 할당하여 키워드 필드를 검색하도록 사용자 정의된 검색 엔진을 사용하여 웹 페이지 또는 웹 사이트를 검색할 수 있도록 하는 것을 포함한다. 이것은 통제된 어휘목록으로 제한된 키워드 사용을 포함하거나 포함하지 않을 수 있다. 이 방법은 일반적으로 검색 엔진 인덱싱에 사용된다.[5]

웹 인덱싱 도구
  • 자동 생성 유틸리티 : 일반적으로 사이트 페이지의 제목들을 자음이나 알파벳 리스트로 만들어서 사용한다. 이는 책의 목차 항목을 자음이나 알파벳 순으로 배열한 다음 색인이라고 하는 것과 같다. A-Z 인덱스가 이에 해당한다.
  • 인덱스 편집 소프트웨어와 HTML 변환 도구 : 인덱스 편집 프로그램은 항목 및 하위 항목의 알파벳화, 상호 참조 작성, 하위 항목의 들여쓰기, 서식 지정 및 기타 인덱스 편집 작업에 도움이 된다. 이러한 프로그램 중 하나에서 작성된 색인을 HTML 문서로 변환하려면 HTML/Prep이라는 유틸리티를 사용하면 된다. 그리고 먼저 인덱스를 만들어야 하며 페이지 번호 대신 링크 URL을 수동으로 붙여넣어야 한다. 그런 다음 HTML/Prep은 텍스트로 저장된 컴파일된 인덱스 파일을 HTML 파일로 변환하여 인덱스 형식 스타일을 보존하고 페이지 상단에 알파벳 하이퍼링크 문자를 추가한다.
  • 데이터베이스 관리 소프트웨어 : 데이터베이스 인덱싱의 경우 모든 데이터베이스 관리 소프트웨어를 사용할 수 있지만 인덱스의 목적을 위해 데이터베이스를 설계하는 데 시간과 노력을 투자해야 한다. 그리고 인덱싱에 특화된 데이터베이스 패키지는 거의 없다. 오토헥스는 정기적인 인덱싱을 위해 설계되었다. 하지만 그것의 개발자는 더 이상 이 DOS 프로그램을 지원하지 않는다. 이에 대한 해결책은 문헌 기록을 유지하기 위해 설계된 프로사이트(ProCite)일 것이다. 비록 문헌 기록을 유지하기 위해 설계되었지만, 전문가들은 정기적인 간행물의 인덱싱에 프로사이트를 사용해 왔다.[4]

비교[편집]

딥웹

네이버, 구글, 야후 같은 일반 검색 엔진으로 검색이 가능한 웹을 표면웹(surface web)이라 하며, 그 대치 용어로 검색 엔진에 걸리지 않는 곳을 딥웹(deep web)이라고 한다. 인터넷 하면 흔히 웹이라고 줄여 부르는 월드 와이드 웹만 생각하기 쉽지만, 인터넷은 월드 와이드 웹, 전자 메일, 파일 공유(토렌트, eMule 등), 웹캠, 동영상 스트리밍, 온라인 게임, VoIP, 모바일 앱 등 다양한 서비스들을 포함한다. 딥웹은 단순히 검색에 걸리지 않는 모든 사이트를 포괄하는 단어이다. 이러한 사이트들은 기업의 내부 정보 페이지, 웹 관리 페이지일 수도 있고, 전자 도서관의 데이터베이스 같은 것일 수도 있다. 혹은 단순히 검색 엔진의 기술적인 문제 때문에 잡히지 않는 웹페이지를 뜻하는 것일 수도 있다. 그냥 더 단순하게 이메일 페이지도 딥웹이다.[6] 그리고 별도로 암호화된 네트워크에 존재하기 때문에 ‘토르’같은 특정한 인터넷 브라우저를 통해서만 접속이 가능하기 때문에 컴퓨터 주소인 아이피는 여러 차례 우회하며 흔적을 거의 남기지 않는다. 이런 폐쇄성 때문에 딥 웹은 일상적인 용도뿐 아니라 아동포르노, 마약, 자살사이트, 무기 거래 등 불법적인 행위가 이뤄진다. 한국에서는 아동포르노 공유가 가장 빈번한 범죄로 관계 당국은 보고 있다. 딥웹에서 얻은 자료를 일반적인 인터넷에 올리지만 않는다면 사실상 적발될 가능성이 없다는 게 네트워크 전문가들의 설명이다. 미연방수사국(FBI) 등 미국 수사기관에서도 딥웹을 주시하고 있다. 불법 무기 거래, 청부살인, 대형화된 마약 거래상 등이 주요 감시 대상이다.[7]

차이점

딥웹은 별도로 암호화된 네트워크에 존재하기 때문에 토어(Tor, 일명 '토르') 같은 특정한 인터넷 브라우저를 통해서만 접속이 가능하다. 또한, 딥웹은 우회 통로마다 암호화된 장벽도 있다. 사용 화폐는 추적이 어려운 가상화폐인 비트코인이다.[8] 표면웹과 딥웹의 주된 차이점은 표면웹은 인덱싱할 수 있지만 딥웹은 인덱싱할 수 없다는 것이다. 그래도 접속은 할 수 있기 때문에 딥웹에서 많은 시간을 보낸다. 딥웹 사이트는 이메일 및 클라우드 서비스 계정, 은행 사이트, 심지어 페이월(paywall)에 의해 제한된 구독 기반 온라인 미디어와 같은 사용자 이름과 비밀번호로만 웹 사이트에 접속할 수 있는 웹 사이트 그리고 기업의 내부 네트워크 및 다양한 데이터베이스, 교육 및 특정 정부 관련 페이지 등이 있다.[9]

각주[편집]

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 표면웹 문서는 인터넷에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.