검수요청.png검수요청.png

"크롤링"의 두 판 사이의 차이

위키원
이동: 둘러보기, 검색
(개요)
4번째 줄: 4번째 줄:
 
==개요==
 
==개요==
 
크롤링은 웹페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로써 크롤링하는 [[소프트웨어]]는 [[크롤러]](crawler)라고 한다.
 
크롤링은 웹페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로써 크롤링하는 [[소프트웨어]]는 [[크롤러]](crawler)라고 한다.
[[검색엔진]](search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 [[웹]] 상에 존재하는 [[정보]]와 웹 사이트를 검색하기 위한 프로그램이며 [[스파이더]](spider),[[봇]](bot), 지능 에이전트라고도 한다. 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, [[로봇]]의 검색 가능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버, 구글 등도 이런 봇을 이용해 운영된다. <ref name="나무위키"> 〈[https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 크롤링]〉 ,《나무위키》</ref>
+
[[검색엔진]](search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 [[웹]] 상에 존재하는 [[정보]]와 웹 사이트를 검색하기 위한 프로그램이며 [[스파이더]](spider),[[봇]](bot), 지능 에이전트라고도 한다.<ref>〈[https://namu.wiki/w/%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84 검색 엔진]〉, 《나무위키》</ref> 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, [[로봇]]의 검색 가능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버, 구글 등도 이런 봇을 이용해 운영된다. <ref name="나무위키"> 〈[https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 크롤링]〉 ,《나무위키》</ref>
  
 
==활용==
 
==활용==
17번째 줄: 17번째 줄:
 
==참고자료==
 
==참고자료==
 
* 〈[https://news.samsungdisplay.com/22907/ 원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용]〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
 
* 〈[https://news.samsungdisplay.com/22907/ 원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용]〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
 +
* 〈[https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 크롤링]〉 ,《나무위키》
 +
* 〈[https://namu.wiki/w/%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84 검색 엔진]〉, 《나무위키》
  
 
==같이 보기==
 
==같이 보기==

2021년 7월 8일 (목) 09:54 판

크롤링(crawling)이란 데이터를 수집하고 분류하는 것을 의미한다. 주로 인터넷 상의 웹페에지를 수집해서 분류하고 저장하는 것을 뜻하며 데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이다. 크롤링의 주요 대상은 다양한 형태로 존재하는 데이터로, 데이터 생성 스타일에 따라, 정형, 반정형 그리고 비정형 데이터로 구분되기도 하지만, 데이터를 생산하는 주체에 따라 기업과 사용자가 생성하는 데이터로 분류할 수 있다.[1]


개요

크롤링은 웹페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로써 크롤링하는 소프트웨어크롤러(crawler)라고 한다. 검색엔진(search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 상에 존재하는 정보와 웹 사이트를 검색하기 위한 프로그램이며 스파이더(spider),(bot), 지능 에이전트라고도 한다.[2] 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, 로봇의 검색 가능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버, 구글 등도 이런 봇을 이용해 운영된다. [3]

활용

(방법,필요성,사례 등)

웹 크롤링

법적문제

각주

  1. 원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
  2. 검색 엔진〉, 《나무위키》
  3. 크롤링〉 ,《나무위키》

참고자료

같이 보기


  검수요청.png검수요청.png 이 크롤링 문서는 프로그래밍에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.