"웹크롤러"의 두 판 사이의 차이

2021년 7월 20일 (화) 17:28 판

웹크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.^[1]

개요

웹크롤러는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램으로, 구글(Google) 검색과 야후!(Yahoo) 검색의 최상위 검색 결과를 섞어넣는 메타검색 엔진이다. 웹크롤러는 또한 사용자에게 그림, 소리, 동영상, 뉴스, 옐로 페이지, 화이트 페이지의 검색 옵션을 제공한다. 웹크롤러는 인포스페이스의 등록 상표이다. 1994년 4월 20일에 가동에 들어갔으며 워싱턴(Washington) 대학교의 브라이언 핑커튼(Brian Pinkerton)에 의해 개발되었다. 웹 크롤러가 하는 작업을 웹 크롤링 혹은 스파이더링이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼 링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. 웹크롤러는 웹 스파이더, 앤트, 오토매틱 인덱서, 웹 스커터로도 부를 수 있다. 그 외에 봇(bots), 웜(worms), 웹 로봇(web robot) 등으로도 부른다.^[1]

예시

빙봇
FAST Crawler
구글봇
GM Crawl
PolyBot
RBSE
Swiftbot
WebFountain
WebRACE
월드 와이드 웹 웜
Yahoo! Slurp^[1]

오픈 소스 크롤러

Frontera
GNU Wget
GRUB
Heritrix
HTTrack
mnoGoSearch
news-please
아파치 너치
오픈 서치 서버
PHP-Crawler
Scrapy
Seeks
스핑크스
스톰크롤러
tkWWW Robot
Xapian
YaCy
Octoparse^[1]

크롤링

크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법 또는, 인터넷에서 존재하는 데이터를 컴퓨터 프로그램을 통하여 자동화된 방법으로 웹에서 데이터를 수집하는 모든 작업을 말한다. 크롤링은 많은 사람들이 스크랩핑과 혼용하여 사용하고 있지만, 사실은 그 의미가 상이한 용어다. 크롤링은 데이터를 수집하고 분류하는 것을 의미하며, 주로 인터넷 상의 html, 문서 등의 웹페이지를 수집해서 분류하고 저장하는 것을 뜻한다. 엄밀히 말해, 크롤링은 데이터의 수집 보다는 여러 웹페이지를 돌아다닌다는 뜻이 강하며, 데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이라 할 수 있다.^[2] 이렇게 크롤링하는 소프트웨어를 크롤러라고 한다.세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다. 예를들면 마케팅과 관련하여 개선점을 파악하고 싶을때 웹상에 존재하는 상품들의 후기, 평점등을 크롤링하여 문제점을 파악하고 개선점을 찾을 수 있다.^[3]

크롤링 종류

정적 크롤링

정적 크롤링은 정적인 데이터를 수집하는 방법을 말한다. 정적인 데이터란 변하지 않는 데이터를 의미합니다. 즉 한 페이지 안에서 원하는 정보가 모두 드러날때 정적 데이터라고 할 수 있다. 예를 들면, 로또 로또 번호 7개를 크롤링 하고 싶다고 한다면 보이는 화면에서 그 값이 모두 나타나 있다. 그렇기 때문에 한 페이지 안에 원하는 정보가 모두 드러난 경우 인 정적 크롤링에 해당된다. 정적 크롤링은 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다는 장점을 가진다.^[3]

동적 크롤링

동적 크롤링은 동적인 데이터를 수집하는 방법을 말한다. 동적인 데이터란 입력, 클릭, 로그인 등과 같이 페이지 이동이 있어야 보이는 데이터를 말한다. 정적크롤링 수집하는 속도가 느리다는 단점이 있지만 더 많은 정보를 수집할 수 있다는 장점이 있다. 예를 들어, 메일함에 있는 메일 제목데이터를 수집하고 싶다고 생각을 해봤을때, 그렇기 위해서는 로그인과정을 거친 후 메일함에 들어가야 하는 동적인 과정이 필요하다. 이러한 경우가 바로 동적 크롤링이다.^[3]

동적 크롤링과 정적 크롤링 차이점

연속성: 정적 크롤링은 주소를 통해 단발적으로 접근하지만, 동적 크롤링은 브라우저를 사용하여 연속적으로 접근한다.
수집 능력: 정적 크롤링은 수집 데이터의 한계가 존재하지만, 동적 크롤링은 수집 데이터의 한계가 없다.
속도: 정적 크롤링의 속도는 빠르며, 동적 크롤링은 속도가 느리다.
라이브러리: 정적 크롤링은 requests, BeautifulSoup을 사용하며, 동적 크롤링은 selenium, chromedriver를 사용한다.^[3]

각주

↑ ^1.0 ^1.1 ^1.2 ^1.3 〈웹 크롤러〉, 《위키백과》
↑ 삼성디스플레이 뉴스룸 공식 홈페이지 -〈원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 2020-04-22
↑ ^3.0 ^3.1 ^3.2 ^3.3 Jaaaa_mj, 〈크롤링 종류(정적 VS 동적)〉, 《티스토리》, 2021-01-17

참고자료

〈웹 크롤러〉, 《위키백과》
Jaaaa_mj, 〈크롤링 종류(정적 VS 동적)〉, 《티스토리》, 2021-01-17

같이 보기

이 웹크롤러 문서는 솔루션에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

개발 : 프로그래밍, 소프트웨어, 데이터, 솔루션^□^■^⊕, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

솔루션	CMS • CRM • DRM • ERP • HMS • LCMS • LMS • PMS • SCM • VOC • 그룹웨어 • 모니터링 솔루션 • 솔루션 • 웹빌더 • 위키 • 지식관리시스템(KMS) • 커스터마이징 • 패키지 소프트웨어 • 패키지 제품

프레임워크	넥스코어 • 노드제이에스(node.js) • 닷넷(.NET) • 라프제이(Laf/J) • 레일즈 • 마이바티스(MyBatis) • 맵리듀스 • 스트럿츠 • 스프링 프레임워크 • 아두이노 • 아이바티스(iBatis) • 아파치 스파크 • 애니프레임 • 앵귤러제이에스(Angular.js) • 에이에스피닷넷(ASP.NET) • 인텔리제이 아이디어(IntelliJ IDEA‎) • 장고 • 전자정부 표준 프레임워크 • 하둡 • 하이버네이트

콘텐츠관리시스템	iCS • 드루팔 • 아사프로 • 오픈웍스 • 워드프레스 • 윅스 • 줌라 • 지니웍스 • 콘텐츠와이즈 • 홈스토리 • 홍익인간

홈페이지 솔루션	GPKI • LBS • PKI • 게시판 • 공인인증서 • 구글 애널리틱스 • 구글 애드센스 • 그누보드 • 네이버 애널리틱스 • 넷퍼넬 • 달력 • 대댓글 • 댓글 • 덱스트업로드 • 방명록 • 블로그 • 비즈니스 애널리틱스 • 선플 • 설문조사 • 소셜로그인 • 스킨 • 아이핀 • 악플 • 에이스카운터 • 웹로그 • 위젯 • 익스프레스엔진(제로보드XE) • 인증 • 접속통계 • 제로보드 • 지핀(G-PIN) • 카운터 • 커뮤니티 • 테크노트 • 투표 • 파일업로드 • 회원관리

이메일 솔루션	깨비메일 • 메일플러그 • 썬더메일 • 에어즈락메일

쇼핑몰 솔루션	고도몰 • 굿모닝샵 • 메이크샵 • 카페24 쇼핑몰 • 퍼스트몰 • 후이즈몰

동영상 솔루션	1그램플레이어 • 5K플레이어 • ACG플레이어 • KM플레이어 • VLC미디어플레이어 • 곰플레이어 • 디코더 • 와우자 • 웹엑스 • 인코더 • 코덱 • 코디 • 팟플레이어

검색 솔루션	검색 • 검색엔진 • 독크루저 • 레피아 • 루씬 • 마리너 • 미르서치 • 서치포뮬러원 • 아이트리니티 • 엑스텐 • 엑스퍼서치 • 일래스틱서치

리포팅툴	사이냅 • 알메이트차트 • 오즈리포트 • 유비리포트 • 차트 • 크로닉스리포트(리포트 디자이너) • 클립리포트(렉스퍼트)

BI 솔루션	BI • BI매트릭스 • OLAP • 옥타곤 • 코그너스 • 태블로

연계 솔루션	메심 • 비즈위버 • 웹크롤러 • 이크로스 비즈아이 스위트 • 인디고 • 코어브릿지 • 크롤러 • 프로버스

데이터 솔루션	BTL 데이터 인테그레이터 • ETL 솔루션 • 딥솔루션 • 아이샤크 • 이노쿼츠 • 인포매티카 • 탈렌드 • 탈렌드 오픈스튜디오 • 테라스트림

자료공유 솔루션	구글 드라이브 • 나스 • 드롭박스 • 시놀로지 나스 • 원드라이브 • 웹하드

그룹웨어	거래처 관리 • 구글 워크스페이스 • 근태관리 • 노츠 • 노트 • 다우오피스 • 다이렉트 클라우드 • 더존 솔루션 • 메일플러그 • 브레인스톰 • 비즈메카 • 엘지 유플러스 그룹웨어 • 연락처 • 연락처 관리 • 오피스365 • 온타임 • 웍스모바일 • 위하고 • 인사관리 • 일정관리 • 전자결재 • 지스위트 • 지투웍스 • 코디네이터 • 팀포커스 • 하이웍스 • 핸디 • 헬로윈

클라우드 솔루션	오픈네뷸라 • 오픈스택 • 유칼립투스 • 클라우드스택 • 클라우드잇

지도 솔루션	구글 지도 • 네이버 지도 • 바이두 지도 • 지도 • 지도 API • 카카오 지도 • 티맵

모바일 솔루션	모피어스

기타 솔루션	딥오씨알 • 리무트콜 • 스카우터 • 알서포트

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[.EC.9B.B9_.ED.81.AC.EB.A1.A4.EB.9F.AC-1] 1.0 ^1.1 ^1.2 ^1.3 〈웹 크롤러〉, 《위키백과》

[.EC.82.BC.EC.84.B1.EB.94.94.EC.8A.A4.ED.94.8C.EB.A0.88.EC.9D.B4_.EB.89.B4.EC.8A.A4.EB.A3.B8-2] 삼성디스플레이 뉴스룸 공식 홈페이지 -〈원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 2020-04-22

[Jaaaa_mj-3] 3.0 ^3.1 ^3.2 ^3.3 Jaaaa_mj, 〈크롤링 종류(정적 VS 동적)〉, 《티스토리》, 2021-01-17

[1]

[2]

[3]

@@ 2번째 줄: / 2번째 줄: @@
 ==개요==
-웹크롤러는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.웹 크롤러가 하는 작업을 웹 크롤링 혹은 스파이더링이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, [[검색 엔진]]은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 [[인덱싱]]한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹크롤러는 봇이나 소프트웨어 [[에이전트]]의 한 형태이다. 웹크롤러는 대개 [[시드]](seeds)라고 불리는 [[URL]] 리스트에서부터 시작하는데, 페이지의 모든 [[하이퍼 링크]]를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. 웹크롤러는 웹 스파이더, 앤트, 오토매틱 인덱서[2], 웹 스커터로도 부를 수 있다. 그 외에 [[봇]](bots), [[웜]](worms), [[웹 로봇]](web robot) 등으로도 부른다.<ref name="웹 크롤러"></ref>
+웹크롤러는 조직적, 자동화된 방법으로 [[월드 와이드 웹]]을 탐색하는 컴퓨터 프로그램으로, [[구글]](Google) 검색과 [[야후!]](Yahoo) 검색의 최상위 검색 결과를 섞어넣는 메타검색 엔진이다. 웹크롤러는 또한 사용자에게 그림, 소리, 동영상, 뉴스, [[옐로 페이지]], [[화이트 페이지]]의 검색 옵션을 제공한다. 웹크롤러는 인포스페이스의 등록 상표이다. 1994년 4월 20일에 가동에 들어갔으며 [[워싱턴]](Washington) 대학교의 [[브라이언 핑커튼]](Brian Pinkerton)에 의해 개발되었다. 웹 크롤러가 하는 작업을 웹 크롤링 혹은 스파이더링이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, [[검색 엔진]]은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 [[인덱싱]]한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹크롤러는 봇이나 소프트웨어 [[에이전트]]의 한 형태이다. 웹크롤러는 대개 [[시드]](seeds)라고 불리는 [[URL]] 리스트에서부터 시작하는데, 페이지의 모든 [[하이퍼 링크]]를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. 웹크롤러는 웹 스파이더, 앤트, 오토매틱 인덱서, 웹 스커터로도 부를 수 있다. 그 외에 [[봇]](bots), [[웜]](worms), [[웹 로봇]](web robot) 등으로도 부른다.<ref name="웹 크롤러"></ref>
 ==예시==
@@ 38번째 줄: / 38번째 줄: @@
 ==크롤링==
-[[크롤링]](crawling) 또는 [[스크레이핑]](scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말한다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 한다.세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다. 예를들면 마케팅과 관련하여 개선점을 파악하고 싶을때 웹상에 존재하는 상품들의 후기, 평점등을 크롤링하여 문제점을 파악하고 개선점을 찾을 수 있다.<ref name="Jaaaa_mj "> Jaaaa_mj, 〈[https://jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적)]〉, 《티스토리》, 2021-01-17 </ref>
+[[크롤링]](crawling) 또는 [[스크레이핑]](scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법 또는, 인터넷에서 존재하는 데이터를 컴퓨터 프로그램을 통하여 자동화된 방법으로 웹에서 데이터를 수집하는 모든 작업을 말한다. 크롤링은 많은 사람들이 스크랩핑과 혼용하여 사용하고 있지만, 사실은 그 의미가 상이한 용어다. 크롤링은 데이터를 수집하고 분류하는 것을 의미하며, 주로 인터넷 상의 [[html]], 문서 등의 웹페이지를 수집해서 분류하고 저장하는 것을 뜻한다. 엄밀히 말해, 크롤링은 데이터의 수집 보다는 여러 웹페이지를 돌아다닌다는 뜻이 강하며, 데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이라 할 수 있다.<ref name="삼성디스플레이 뉴스룸"> 삼성디스플레이 뉴스룸 공식 홈페이지 -〈[https://news.samsungdisplay.com/22907/ 원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용]〉, 2020-04-22 </ref> 이렇게 크롤링하는 소프트웨어를 크롤러라고 한다.세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다. 예를들면 마케팅과 관련하여 개선점을 파악하고 싶을때 웹상에 존재하는 상품들의 후기, 평점등을 크롤링하여 문제점을 파악하고 개선점을 찾을 수 있다.<ref name="Jaaaa_mj "> Jaaaa_mj, 〈[https://jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적)]〉, 《티스토리》, 2021-01-17 </ref>
 ==크롤링 종류==

위키원

이름공간

변수

보기

더 보기

검색