"웹크롤러"의 두 판 사이의 차이

2021년 7월 20일 (화) 17:16 판

웹크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.^[1]

개요

웹크롤러는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.웹 크롤러가 하는 작업을 웹 크롤링 혹은 스파이더링이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼 링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. 웹크롤러는 웹 스파이더, 앤트, 오토매틱 인덱서[2], 웹 스커터로도 부를 수 있다. 그 외에 봇(bots), 웜(worms), 웹 로봇(web robot) 등으로도 부른다.^[1]

예시

빙봇
FAST Crawler
구글봇
GM Crawl
PolyBot
RBSE
Swiftbot
WebFountain
WebRACE
월드 와이드 웹 웜
Yahoo! Slurp^[1]

오픈 소스 크롤러

Frontera
GNU Wget
GRUB
Heritrix
HTTrack
mnoGoSearch
news-please
아파치 너치
오픈 서치 서버
PHP-Crawler
Scrapy
Seeks
스핑크스
스톰크롤러
tkWWW Robot
Xapian
YaCy
Octoparse^[1]

크롤링

크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말한다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 한다.세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다. 예를들면 마케팅과 관련하여 개선점을 파악하고 싶을때 웹상에 존재하는 상품들의 후기, 평점등을 크롤링하여 문제점을 파악하고 개선점을 찾을 수 있다.^[2]

크롤링 종류

정적 크롤링

정적 크롤링은 정적인 데이터를 수집하는 방법을 말한다. 정적인 데이터란 변하지 않는 데이터를 의미합니다. 즉 한 페이지 안에서 원하는 정보가 모두 드러날때 정적 데이터라고 할 수 있다. 예를 들면, 로또 로또 번호 7개를 크롤링 하고 싶다고 한다면 보이는 화면에서 그 값이 모두 나타나 있다. 그렇기 때문에 한 페이지 안에 원하는 정보가 모두 드러난 경우 인 정적 크롤링에 해당된다. 정적 크롤링은 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다는 장점을 가진다.^[2]

동적 크롤링

동적 크롤링은 동적인 데이터를 수집하는 방법을 말한다. 동적인 데이터란 입력, 클릭, 로그인 등과 같이 페이지 이동이 있어야 보이는 데이터를 말한다. 정적크롤링 수집하는 속도가 느리다는 단점이 있지만 더 많은 정보를 수집할 수 있다는 장점이 있다. 예를 들어, 메일함에 있는 메일 제목데이터를 수집하고 싶다고 생각을 해봤을때, 그렇기 위해서는 로그인과정을 거친 후 메일함에 들어가야 하는 동적인 과정이 필요하다. 이러한 경우가 바로 동적 크롤링이다.^[2]

동적 크롤링과 정적 크롤링 차이점

연속성: 정적 크롤링은 주소를 통해 단발적으로 접근하지만, 동적 크롤링은 브라우저를 사용하여 연속적으로 접근한다.
수집 능력: 정적 크롤링은 수집 데이터의 한계가 존재하지만, 동적 크롤링은 수집 데이터의 한계가 없다.
속도: 정적 크롤링의 속도는 빠르며, 동적 크롤링은 속도가 느리다.
라이브러리: 정적 크롤링은 requests, BeautifulSoup을 사용하며, 동적 크롤링은 selenium, chromedriver를 사용한다.^[2]

각주

↑ ^1.0 ^1.1 ^1.2 ^1.3 〈웹 크롤러〉, 《위키백과》
↑ ^2.0 ^2.1 ^2.2 ^2.3 Jaaaa_mj, 〈크롤링 종류(정적 VS 동적)〉, 《티스토리》, 2021-01-17

참고자료

〈웹 크롤러〉, 《위키백과》
Jaaaa_mj, 〈크롤링 종류(정적 VS 동적)〉, 《티스토리》, 2021-01-17

같이 보기

이 웹크롤러 문서는 솔루션에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

개발 : 프로그래밍, 소프트웨어, 데이터, 솔루션^□^■^⊕, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

솔루션	CMS • CRM • DRM • ERP • HMS • LCMS • LMS • PMS • SCM • VOC • 그룹웨어 • 모니터링 솔루션 • 솔루션 • 웹빌더 • 위키 • 지식관리시스템(KMS) • 커스터마이징 • 패키지 소프트웨어 • 패키지 제품

프레임워크	넥스코어 • 노드제이에스(node.js) • 닷넷(.NET) • 라프제이(Laf/J) • 레일즈 • 마이바티스(MyBatis) • 맵리듀스 • 스트럿츠 • 스프링 프레임워크 • 아두이노 • 아이바티스(iBatis) • 아파치 스파크 • 애니프레임 • 앵귤러제이에스(Angular.js) • 에이에스피닷넷(ASP.NET) • 인텔리제이 아이디어(IntelliJ IDEA‎) • 장고 • 전자정부 표준 프레임워크 • 하둡 • 하이버네이트

콘텐츠관리시스템	iCS • 드루팔 • 아사프로 • 오픈웍스 • 워드프레스 • 윅스 • 줌라 • 지니웍스 • 콘텐츠와이즈 • 홈스토리 • 홍익인간

홈페이지 솔루션	GPKI • LBS • PKI • 게시판 • 공인인증서 • 구글 애널리틱스 • 구글 애드센스 • 그누보드 • 네이버 애널리틱스 • 넷퍼넬 • 달력 • 대댓글 • 댓글 • 덱스트업로드 • 방명록 • 블로그 • 비즈니스 애널리틱스 • 선플 • 설문조사 • 소셜로그인 • 스킨 • 아이핀 • 악플 • 에이스카운터 • 웹로그 • 위젯 • 익스프레스엔진(제로보드XE) • 인증 • 접속통계 • 제로보드 • 지핀(G-PIN) • 카운터 • 커뮤니티 • 테크노트 • 투표 • 파일업로드 • 회원관리

이메일 솔루션	깨비메일 • 메일플러그 • 썬더메일 • 에어즈락메일

쇼핑몰 솔루션	고도몰 • 굿모닝샵 • 메이크샵 • 카페24 쇼핑몰 • 퍼스트몰 • 후이즈몰

동영상 솔루션	1그램플레이어 • 5K플레이어 • ACG플레이어 • KM플레이어 • VLC미디어플레이어 • 곰플레이어 • 디코더 • 와우자 • 웹엑스 • 인코더 • 코덱 • 코디 • 팟플레이어

검색 솔루션	검색 • 검색엔진 • 독크루저 • 레피아 • 루씬 • 마리너 • 미르서치 • 서치포뮬러원 • 아이트리니티 • 엑스텐 • 엑스퍼서치 • 일래스틱서치

리포팅툴	사이냅 • 알메이트차트 • 오즈리포트 • 유비리포트 • 차트 • 크로닉스리포트(리포트 디자이너) • 클립리포트(렉스퍼트)

BI 솔루션	BI • BI매트릭스 • OLAP • 옥타곤 • 코그너스 • 태블로

연계 솔루션	메심 • 비즈위버 • 웹크롤러 • 이크로스 비즈아이 스위트 • 인디고 • 코어브릿지 • 크롤러 • 프로버스

데이터 솔루션	BTL 데이터 인테그레이터 • ETL 솔루션 • 딥솔루션 • 아이샤크 • 이노쿼츠 • 인포매티카 • 탈렌드 • 탈렌드 오픈스튜디오 • 테라스트림

자료공유 솔루션	구글 드라이브 • 나스 • 드롭박스 • 시놀로지 나스 • 원드라이브 • 웹하드

그룹웨어	거래처 관리 • 구글 워크스페이스 • 근태관리 • 노츠 • 노트 • 다우오피스 • 다이렉트 클라우드 • 더존 솔루션 • 메일플러그 • 브레인스톰 • 비즈메카 • 엘지 유플러스 그룹웨어 • 연락처 • 연락처 관리 • 오피스365 • 온타임 • 웍스모바일 • 위하고 • 인사관리 • 일정관리 • 전자결재 • 지스위트 • 지투웍스 • 코디네이터 • 팀포커스 • 하이웍스 • 핸디 • 헬로윈

클라우드 솔루션	오픈네뷸라 • 오픈스택 • 유칼립투스 • 클라우드스택 • 클라우드잇

지도 솔루션	구글 지도 • 네이버 지도 • 바이두 지도 • 지도 • 지도 API • 카카오 지도 • 티맵

모바일 솔루션	모피어스

기타 솔루션	딥오씨알 • 리무트콜 • 스카우터 • 알서포트

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[.EC.9B.B9_.ED.81.AC.EB.A1.A4.EB.9F.AC-1] 1.0 ^1.1 ^1.2 ^1.3 〈웹 크롤러〉, 《위키백과》

[Jaaaa_mj-2] 2.0 ^2.1 ^2.2 ^2.3 Jaaaa_mj, 〈크롤링 종류(정적 VS 동적)〉, 《티스토리》, 2021-01-17

[1]

[2]

@@ 2번째 줄: / 2번째 줄: @@
 ==개요==
-웹 크롤러가 하는 작업을 웹 크롤링 혹은 스파이더링(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, [[검색 엔진]]은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 [[인덱싱]]한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇이나 소프트웨어 [[에이전트]]의 한 형태이다. 웹 크롤러는 대개 [[시드]](seeds)라고 불리는 [[URL]] 리스트에서부터 시작하는데, 페이지의 모든 [[하이퍼 링크]]를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다.<ref name="웹 크롤러"></ref>
+웹크롤러는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.웹 크롤러가 하는 작업을 웹 크롤링 혹은 스파이더링이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, [[검색 엔진]]은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 [[인덱싱]]한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹크롤러는 봇이나 소프트웨어 [[에이전트]]의 한 형태이다. 웹크롤러는 대개 [[시드]](seeds)라고 불리는 [[URL]] 리스트에서부터 시작하는데, 페이지의 모든 [[하이퍼 링크]]를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. 웹크롤러는 웹 스파이더, 앤트, 오토매틱 인덱서[2], 웹 스커터로도 부를 수 있다. 그 외에 [[봇]](bots), [[웜]](worms), [[웹 로봇]](web robot) 등으로도 부른다.<ref name="웹 크롤러"></ref>
-==종류==
+==예시==
+*'''빙봇'''
+*'''FAST Crawler'''
+*'''구글봇'''
+*'''GM Crawl'''
+*'''PolyBot'''
+*'''RBSE'''
+*'''Swiftbot'''
+*'''WebFountain'''
+*'''WebRACE'''
+*'''월드 와이드 웹 웜'''
+*'''Yahoo! Slurp'''<ref name="웹 크롤러"></ref>
+==오픈 소스 크롤러==
+*'''Frontera'''
+*'''GNU Wget'''
+*'''GRUB'''
+*'''Heritrix'''
+*'''HTTrack'''
+*'''mnoGoSearch'''
+*'''news-please'''
+*'''아파치 너치'''
+*'''오픈 서치 서버'''
+*'''PHP-Crawler'''
+*'''Scrapy'''
+*'''Seeks'''
+*'''스핑크스'''
+*'''스톰크롤러'''
+*'''tkWWW Robot'''
+*'''Xapian'''
+*'''YaCy'''
+*'''Octoparse'''<ref name="웹 크롤러"></ref>
+==크롤링==
+[[크롤링]](crawling) 또는 [[스크레이핑]](scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말한다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 한다.세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다. 예를들면 마케팅과 관련하여 개선점을 파악하고 싶을때 웹상에 존재하는 상품들의 후기, 평점등을 크롤링하여 문제점을 파악하고 개선점을 찾을 수 있다.<ref name="Jaaaa_mj "> Jaaaa_mj, 〈[https://jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적)]〉, 《티스토리》, 2021-01-17 </ref>
+==크롤링 종류==
+===정적 크롤링===
+[[정적 크롤링]]은 정적인 데이터를 수집하는 방법을 말한다. 정적인 데이터란 변하지 않는 데이터를 의미합니다. 즉 한 페이지 안에서 원하는 정보가 모두 드러날때 정적 데이터라고 할 수 있다. 예를 들면, 로또 로또 번호 7개를 크롤링 하고 싶다고 한다면 보이는 화면에서 그 값이 모두 나타나 있다. 그렇기 때문에 한 페이지 안에 원하는 정보가 모두 드러난 경우 인 정적 크롤링에 해당된다. 정적 크롤링은 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다는 장점을 가진다.<ref name="Jaaaa_mj "></ref>
+===동적 크롤링===
+[[동적 크롤링]]은 동적인 데이터를 수집하는 방법을 말한다. 동적인 데이터란 입력, 클릭, 로그인 등과 같이 페이지 이동이 있어야 보이는 데이터를 말한다. 정적크롤링 수집하는 속도가 느리다는 단점이 있지만 더 많은 정보를 수집할 수 있다는 장점이 있다. 예를 들어, 메일함에 있는 메일 제목데이터를 수집하고 싶다고 생각을 해봤을때, 그렇기 위해서는 로그인과정을 거친 후 메일함에 들어가야 하는 동적인 과정이 필요하다. 이러한 경우가 바로 동적 크롤링이다.<ref name="Jaaaa_mj "></ref>
+==동적 크롤링과 정적 크롤링 차이점==
+;연속성: 정적 크롤링은 주소를 통해 단발적으로 접근하지만, 동적 크롤링은 브라우저를 사용하여 연속적으로 접근한다.
+;수집 능력: 정적 크롤링은 수집 데이터의 한계가 존재하지만, 동적 크롤링은 수집 데이터의 한계가 없다.
+;속도: 정적 크롤링의 속도는 빠르며, 동적 크롤링은 속도가 느리다.
+;라이브러리: 정적 크롤링은 [[requests]], [[BeautifulSoup]]을 사용하며, 동적 크롤링은 [[selenium]], [[chromedriver]]를 사용한다.<ref name="Jaaaa_mj "></ref>
 {{각주}}
@@ 10번째 줄: / 58번째 줄: @@
 == 참고자료 ==
 * 〈[https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC 웹 크롤러]〉, 《위키백과》
+* Jaaaa_mj, 〈[https://jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적)]〉, 《티스토리》, 2021-01-17
 == 같이 보기 ==
 {{솔루션|검토 필요}}

위키원

이름공간

변수

보기

더 보기

검색