의견.png

표면웹

위키원
sekung1010 (토론 | 기여)님의 2020년 7월 31일 (금) 17:50 판
이동: 둘러보기, 검색

표면웹(Surface Web)은 일반 검색엔진으로 검색이 가능한 콘텐츠의 인터넷 환경으로 구글(Google), 네이버(Naver), 다음(Daum)과 같은 일반 검색 사이트에서 검색되지 않는 딥웹(Deep Web)과는 비교되는 용어이다.

개요

표면웹은 보이는 웹(Visible Web), 인덱싱된 웹(Indexed Web), 인덱싱 가능한 웹(Indexable Web) 또는 라이트넷(Lightnet)이라고 불린다. 월드 와이드 웹의 일부로서 일반 대중이 쉽게 이용할 수 있고 친숙하며 표준 웹 검색 엔진을 사용하여 검색할 수 있다. 표면 웹은 인터넷에 있는 정보의 10퍼센트만 구성되고 어떤 검색 엔진으로도 접근할 수 있는 서버의 공용 웹 페이지 모음으로 만들어진다. 웹사이트나 뉴스, 아울렛, 스포츠 통계 등을 검색할 때 사용하는것이 표면웹이다. 표면웹은 크롤링과 인덱싱이 가능한 웹이다. 웹에서 검색로봇이 사이트를 방문해서 링크를 타고 돌아다니며 모은 결과를 토대로 검색엔진에 노출시키는 인덱싱을 한다.[1]

특징

검색 엔진은 웹 거미라고 불리는 프로그램의 사용을 통해 인터넷에 페이지의 데이터베이스를 구축한다. 거미는 각 페이지의 복사본을 받아 카탈로그를 만들어 나중에 빠른 검색을 위해 적절한 정보를 보관한다. 새로운 페이지가 연결되면, 그것은 결국 거미들에 의해 검사되고 도달 가능한 페이지 목록, 즉 표면 웹에 추가된다.[2] 표면웹은 1990년 팀 버너 리에 의해 처음 발명된 이후 월드 와이드 웹의 일부였으며, 주요 검색 엔진(구글, 빙, 야후 등)을 사용하여 인터넷 브라우저를 통해 발견할 수 있는 모든 것이기에 가장 친숙한 웹의 일부분이다. 이것은 뉴스를 읽을 때, 아마존에서 어떤 물건을 살 때, 혹은 일상적으로 사용하는 웹사이트를 방문할 때 사용하는 것이고, 또한 전세계의 정부들에 의해 지속적으로 감시되고 있는 웹의 영역이기도 하다. 월드 와이드 웹 콘텐츠의 5% 미만을 차지하는 미미한 수치이지만 딥웹이 500배에서 5000배 정도 더 클 수 있다는 추정을 제시한다.[3]

웹 인덱싱

웹 인덱싱 또는 인터넷 인덱싱은 웹 사이트 또는 인터넷 전체의 내용을 색인하는 방법으로 구성된다. 이는 사용자가 원하는 정보를 쉽게 찾을 수 있도록 하여 사이트 네비게이션에 초점을 맞춘다. 개별 웹사이트나 인트라넷은 일반적인 인덱스를 사용할 수 있는 반면, 검색 엔진은 보통 키워드와 메타데이터를 사용하여 인터넷이나 현장 검색에 더 유용한 어휘를 제공한다. 온라인에 기사가 게재된 정기 간행물의 수가 증가함에 따라, 정기 간행물 웹사이트에도 웹 인덱싱이 중요해지고 있다. 웹 색인화 방법에는 '웹 사이트 A-Z 인덱스'라는 것이 있다. 이는 알파벳 탐색 보기 또는 인터페이스가 있다는 것이다. 이 인터페이스는 반드시 알파벳순은 아니지만 일부 웹 사이트에서도 발견되는 계층적 범주 계층을 통한 탐색의 인터페이스와 다르다. 단일 사이트의 여러 페이지가 아닌 여러 사이트를 인덱싱하는 데 사용될 수 있지만 드물다.

검색 엔진은 정확한 단어나 구문만 찾아낸다. 사용자가 복수형이 아닌 동의어, 단수형, 두문자 대신 철자형, 철자가 틀린 단어 또는 텍스트에 결코 나타나지 않는 단어가 포함된 개념을 입력하면 적절한 페이지가 누락될 수 있다. 웹 전체를 검색하는 것은 너무 많은 결과가 검색되기 때문에 누락된 페이지는 보통 문제가 되지 않는다. 그러나 개별 웹 사이트에서는 모든 관련 페이지를 반환하는 것이 필수적이다. 검색 엔진은 특정 검색 구문이 포함된 페이지를 선택하는데, 그 페이지가 완전히 다른 주제일지라도 선택하게 된다. 주요 상업용 검색엔진은 메타 태그, 키워드 빈도, 링크 등을 기반으로 복잡한 순위 시스템을 개발했기 때문에 인터넷 전체를 검색할 때 큰 문제가 되지 않는다.[4]

메타데이터 웹 인덱싱은 메타데이터 태그 또는 메타 태그 필드 내의 웹 페이지 또는 웹 사이트에 키워드 또는 구를 할당하여 키워드 필드를 검색하도록 사용자 정의된 검색 엔진을 사용하여 웹 페이지 또는 웹 사이트를 검색할 수 있도록 하는 것을 포함한다. 이것은 통제된 어휘목록으로 제한된 키워드 사용을 포함하거나 포함하지 않을 수 있다. 이 방법은 일반적으로 검색 엔진 인덱싱에 사용된다.[5]

비교

딥웹

네이버, 구글, 야후 같은 일반 검색 엔진으로 검색이 가능한 웹을 표면웹(surface web)이라 하며, 그 대치 용어로 검색 엔진에 걸리지 않는 곳을 딥웹(deep web)이라고 한다. 인터넷 하면 흔히 웹이라고 줄여 부르는 월드 와이드 웹만 생각하기 쉽지만 인터넷은 월드 와이드 웹, 전자 메일, 파일 공유(토렌트, eMule 등), 웹캠, 동영상 스트리밍, 온라인 게임, VoIP, 모바일 앱 등 다양한 서비스들을 포함한다. 딥웹은 단순히 검색에 걸리지 않는 모든 사이트들을 포괄하는 단어이다. 이러한 사이트들은 기업의 내부 정보 페이지, 웹 관리 페이지일 수도 있고, 전자 도서관의 데이터베이스 같은 것일 수도 있다. 혹은 단순히 검색 엔진의 기술적인 문제 때문에 잡히지 않는 웹페이지를 뜻하는 것일 수도 있다. 그냥 더 단순하게 이메일 페이지도 딥웹이다.[6] 그리고 별도로 암호화된 네트워크에 존재하기 때문에 ‘토르’같은 특정한 인터넷 브라우저를 통해서만 접속이 가능하기 때문에 컴퓨터 주소인 아이피는 여러 차례 우회하며 흔적을 거의 남기지 않는다. 이런 폐쇄성 때문에 딥 웹은 일상적인 용도 뿐 아니라 아동포르노, 마약, 자살사이트, 무기 거래 등 불법적인 행위가 이뤄진다. 한국에서는 아동포르노 공유가 가장 빈번한 범죄로 관계 당국은 보고 있다. 딥웹에서 얻은 자료를 일반적인 인터넷에 올리지만 않는다면 사실상 적발될 가능성이 없다는 게 네트워크 전문가들의 설명이다. 미 연방수사국(FBI) 등 미국 수사기관에서도 딥웹을 주시하고 있다. 불법 무기 거래, 청부살인, 대형화된 마약 거래상 등이 주요 감시 대상이다.[7]

차이점

딥웹은 별도로 암호화된 네트워크에 존재하기 때문에 토어(Tor, 일명 '토르') 같은 특정한 인터넷 브라우저를 통해서만 접속이 가능하다. 또한, 딥웹은 우회 통로마다 암호화된 장벽도 있다. 사용화폐는 추적이 어려운 가상화폐인 비트코인이다.[8] 표면웹과 딥웹의 주된 차이점은 표면웹은 인덱싱할 수 있지만 딥웹은 인덱싱할 수 없다는 것이다. 그래도 접속은 할 수 있기 때문에 딥웹에서 많은 시간을 보낸다. 딥웹 사이트는 이메일 및 클라우드 서비스 계정, 은행 사이트, 심지어 페이월(paywall)에 의해 제한된 구독 기반 온라인 미디어와 같은 사용자 이름과 비밀번호로만 웹 사이트에 접속할 수 있는 웹 사이트 그리고 기업의 내부 네트워크 및 다양한 데이터베이스, 교육 및 특정 정부 관련 페이지 등이 있다.[9]

각주

참고자료


같이 보기


  의견.png 이 표면웹 문서는 인터넷에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.