웹개방성
웹개방성(Web Openness)이란 웹에 공개된 정보에 이용자가 아무런 제약 없이 접근하여 이용할 수 있는 것을 의미하며, 웹사이트의 정보를 자유롭게 공개ㆍ공유하여 정보의 투명성과 개방성이 향상되는 것을 말한다.
목차
개요
우리나라는 세계에서 가장 빠른 인터넷 환경과 전세계 4위에 달하는 스마트폰 보급률로 정확한 정보를 쉽고 빠르게 얻을 수 있는 훌륭한 정보 환경에서 살고 있다. 그만큼 좋은 정보들에 정확하게 접근하는 것 역시 중요하다. 검색이 정확히 이뤄지지 않는 정보들은 쓸모없는 정보와 다를 바 없기 때문이다. 무슨 말인가 싶겠지만, 이것이 바로 현재 우리나라 인터넷 환경이 직면한 상황이다. 우리는 구글, 네이버, 다음 등의 포털사이트에서 많은 양의 데이터를 검색하며 살고 있지만, 실제로는 매우 제한적인 검색이 이뤄지고 있다. 그 이유는 검색엔진 배제선언에 있다. 일반적으로 검색로봇이 웹사이트의 정보를 수집하는 알고리즘에서 검색엔진 배제선언을 하게 되면, 웹사이트에 검색로봇의 접근을 막아 정보를 수집할 수 없게 되는 것이다. 그래서 2011년에 행정안전부, 현 행정자치부에서 검색로봇 배제 표준 적용방법 가이드라인을 배포했다. 웹개방성의 수준을 체계적으로 강화해 개인정보와 같은 중요 정보는 검색할 수 없도록 하고, 필요한 자료는 효율적으로 개방할 수 있게 만드는 가이드라인이지만, 대부분의 웹사이트에서는 이러한 가이드라인을 준수하는 비율이 낮다.[1] 단순히 검색엔진에 키워드를 입력하는 것만으로도 웹사이트 내의 내용을 모두 찾을 수 있으면, 웹개방성이 높은 것으로, 해당 웹사이트에 일일이 접속해 원하는 내용을 찾아야 하면 웹개방성이 낮은 것으로 간주한다. 국내의 웹개방성은 낮은 편으로, 국내의 대학교, 학술/연구기관은 정보접근을 완전 차단하여 검색으로 정보를 찾을 수 없게 해뒀다. 정보를 얻는 대부분의 사람들의 특성 상 양질의 정보가 있더라도 얻기 힘들다.[2] 이처럼, 웹 개방성이 낮으면 양질의 자료가 있더라도 검색으로 자료를 찾을 수 없기에 검색으로 나온 자료만을 사용하거나, 양질의 자료를 얻고싶다면 일일이 다 뒤져서 정보를 찾아야 하는 수고스러움을 동반한다. 그러므로 웹개방성을 높혀 양질의 정보를 공유하는 것이 중요하다.
웹개방성의 필요성
웹사이트 개방 확인 방법
robots.txt 파일
로봇 차단을 확인할 때는 웹사이트에 접속한 후 브라우저 주소창에 해당 웹사이트의 주소 뒤에 /robots.txt를 추가로 입력하고 엔터키를 누른 뒤 해당 페이지에 나타나는 결과에 따라 로봇을 배제하는지 안 하는지 여부를 확인할 수 있다. robots.txt가 존재하지 않는다면 화면에 Not Found라는 글자가 출력되고, 이는 모든 로봇에 대한 문서 접근을 허용하는 형태이다. 또 다른 형태로는 User-Agent와 Allow가 출력된다. User-Agent에서 *은 모든 로봇을 지칭하는 뜻이며, Allow에서 /는 모든 디렉터리에서 로봇의 접근을 허용한다는 뜻이다. Allow 대신 Disallow:/ 형태로 되어있으면, 검색 로봇이 모든 문서에 접근할 수 없도록 차단한 상태이다. 부분적으로 차단도 가능하다.[3]
Noindex / Nofollow 태그 확인
noindex / nofollow 태그는 해당 웹페이지에서 마우스 우측 클릭 시 '소스보기'에서 해당 태그가 포함되어 있는지를 Ctrl+F키로 검색하여 쉽게 확인할 수 있다. noindex는 색인이 되지 않도록 하고, nofollow는 해당 웹페이지에 포함된 링크를 따라가지 않도록 하는 역할을 한다. 다음 그림은 검색 엔진이 문서 정보를 알 수 있도록 안내하는 역할을 하는 Meta태그의 Content속성 중 noindex는 해당 페이지에 대한 색인작업(index)을 제외하는 역할로, 로봇이 색인을 못하게 되면 해당 페이지에 대한 정보가 저장되지 않기 때문에 검색에서 제외된다. Content속성 중 nofollow를 설정하게 되면 검색 로봇이 해당 페이지에 수록된 링크를 따라갈 수 없게 제한하여 효율적인 검색을 방해할 수 있다.[3]
URL 공개 또는 비공개 여부 확인
웹사이트와 그 안에 포함된 내용은 고유의 URL을 가지고 있다. 다만, 해당 페이지의 URL이 변경되었음에도 불구하고 주소창의 URL이 변하지 않는 경우, 검색 로봇은 이를 인식하지 못해 검색이 제한될 수 있다.[3]
웹개방성 지수
웹개방성 지수란 웹개방성을 평가하기 위해 웹 발전연구소에서 최초로 개발한 평가모형으로, 웹사이트의 검색엔진 접근 차단, 특정 페이지 접근 차단, 페이지별 정보 수집 거부 등을 평가해 점수화한 것이다.
웹개방성 지수(WOI) 개발 및 고도화
- 검색엔진 접근 차단
- 웹 방화벽이나 웹 서버의 운역 정책에 따라 특정 검색엔진의 접속이나 특정 내용에 대한 접근 및 열람을 필터링을 통해 차단한다.
- 검색엔진 배제선언
- 웹 루트 디렉터리에 저장한 robots.txt 파일에 검색엔진 접근 거부에 대한 정책을 선언함으로써 거부 선언된 검색엔진이 방문 시 이를 통해 검색을 수행하지 않는다.
- 특정 페이지 접근 차단
- 웹사이트 초기 접속 시 액티브X, 자바 등의 실행을 목적으로 하는 특정 웹페이지로 접속을 연결함으로써 검섹엔진의 웹사이트 크롤링이 불가능하다.
- 페이지 별 정보 수집 거부
- 웹페이지 소스코드에 검색엔진 접근 거부에 대한 정책을 선언함으로써 거부 선언된 검색엔진이 이 웹페이지에 대해서는 검색을 수행하지 않는다.
- 신기술 적용에 의한 차단
- 웹사이트의 특정 콘텐츠 영역이나 링크 정보를 플래시(Flash), 자바 애플릿(JAVA Applet), 자바스크립트(JAVA Script), 이미지 파일 등으로 구현함으로써 해당 영역의 검색을 차단한다.
- 페이지별 URL 차단
- 검색엔진이 웹 서버의 구현 특성에 따라 웹사이트의 하부 웹페이지 URL을 추출하지 못하여 발생하는 검색을 중단한다.[4]
웹개방성 평가 목적 및 기대효과
웹에 공개된 정보는 높은 사회, 경제적 가치를 지닌 중요한 자산으로 합리적인 정보 공개가 필요하다. 웹사이트의 정보 접근성 향상과 정보 개방에 대한 정보 제공자 측의 인식 제고 및 개선이 목적이며, 정보 개방에 대한 공공과 민간 기업 등 정보 제공자 측의 인식 개선과 참여 공유 투명성 제고, 정보 공개로 사용자의 합리적인 정보 활용도 향상, 정보의 자유로운 흐름 측면에서의 웹 정보 접근성 향상, 효율적인 웹 정보 제공이 가능하며 이를 통한 비용 절감 효과 기대, 향상된 각 웹사이트의 정보 제공으로 스마트 미디어 시대의 웹 서비스를 선도, 개방된 정보를 사회ㆍ경제적 가치가 높은 자산으로 활용하여 새로운 경제적 효과 창출 등이 있다.[5]
각주
- ↑ 써미, 〈(최신 웹 기술 사례) 웹 개방성의 이해와 필요성〉, 《네이버 블로그》, 2016-05-11
- ↑ 강일용, 〈여전히 형편없는 국내 웹개방성... 대학, 연구기관 78%가 검색 제한〉, 《아이티동아》, 2013-03-11
- ↑ 3.0 3.1 3.2 광고컬럼, 〈23. 검색이 잘 되는 비밀! 웹 개방의 필요성〉, 《플레이디》, 2013-10-04
- ↑ 웹 개방성 인코덤 - http://www.incodom.kr/%EC%9B%B9_%EA%B0%9C%EB%B0%A9%EC%84%B1
- ↑ 웹발전연구소 - http://www.smartebiz.kr/new/subpage03_01.html
참고 자료
- 웹 소울 랩 - http://www.websoul.co.kr/consulting/woi.asp
- 광고컬럼, 〈23. 검색이 잘 되는 비밀! 웹 개방의 필요성〉, 《플레이디》, 2013-10-04
- 웹 개방성 인코덤 - http://www.incodom.kr/%EC%9B%B9_%EA%B0%9C%EB%B0%A9%EC%84%B1
- 웹발전연구소 - http://www.smartebiz.kr/new/subpage03_01.html