"크롤링"의 두 판 사이의 차이

2021년 7월 8일 (목) 09:54 판

크롤링(crawling)이란 데이터를 수집하고 분류하는 것을 의미한다. 주로 인터넷 상의 웹페에지를 수집해서 분류하고 저장하는 것을 뜻하며 데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이다. 크롤링의 주요 대상은 다양한 형태로 존재하는 데이터로, 데이터 생성 스타일에 따라, 정형, 반정형 그리고 비정형 데이터로 구분되기도 하지만, 데이터를 생산하는 주체에 따라 기업과 사용자가 생성하는 데이터로 분류할 수 있다.^[1]

개요

크롤링은 웹페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로써 크롤링하는 소프트웨어는 크롤러(crawler)라고 한다. 검색엔진(search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 웹 상에 존재하는 정보와 웹 사이트를 검색하기 위한 프로그램이며 스파이더(spider),봇(bot), 지능 에이전트라고도 한다.^[2] 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, 로봇의 검색 가능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버, 구글 등도 이런 봇을 이용해 운영된다. ^[3]

활용

(방법,필요성,사례 등)

웹 크롤링

법적문제

각주

↑ 〈원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
↑ 〈검색 엔진〉, 《나무위키》
↑ 〈크롤링〉 ,《나무위키》

참고자료

〈원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
〈크롤링〉 ,《나무위키》
〈검색 엔진〉, 《나무위키》

같이 보기

이 크롤링 문서는 프로그래밍에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.

개발 : 프로그래밍^□^■^⊕, 소프트웨어, 데이터, 솔루션, 보안, 하드웨어, 컴퓨터, 사무자동화, 인터넷, 모바일, 사물인터넷, 게임, 메타버스, 디자인

프로그래밍 언어	ASP • C 언어 • C++ • C# • CSS • D 언어 • HTML • HTML5 • JSP • PHP • R • XHTML • XML • XSLT • 고(Go) • 고급언어 • 기계어 • 델파이 • 러스트 • 루비 • 루아 • 리액트 • 리퀴디티 • 무브 • 미켈슨 • 베이직 • 브이비스크립트 • 비주얼 C++ • 비주얼베이직(VB) • 비주얼베이직닷넷(VB.NET) • 솔리디티 • 스몰토크 • 스위프트 언어 • 스칼라 • 스크립트 언어 • 알골 • 어셈블리 • 언리얼스크립트 • 얼랭 • 에이잭스(Ajax) • 엠에프씨(MFC) • 오브젝티브-C • 오브젝트 파스칼 • 오카멜 • 웹어셈블리(WASM) • 이와즘(eWASM) • 자바 • 자바스크립트 • 저급언어 • 제이슨(JSON) • 제이쿼리(jQuery) • 카멜 • 코볼 • 코틀린 • 콜드퓨전 • 타입스크립트 • 파스칼 • 파워스크립트 • 파이썬 • 펄(Perl) • 포트란 • 프로씨(Pro-C) • 피엘에스큐엘(PL/SQL) • 피엘원(PL/I) • 하스켈

개발방법론	CBD 개발방법론 • EA • 구조적 개발방법론 • 객체지향 개발방법론 • 라이브러리 • 람다 아키텍처 • 모듈 • 모듈화 • 벤치마킹 • 소프트웨어 개발방법론 • 스크럼 • 스프린트 • 아키텍처 • 아키텍트 • 애자일 • 웹개발방법론 • 정보공학 개발방법론 • 컴포넌트 • 테일러링 • 템플릿 • 폭포수 모델 • 프로젝트 • 프로토타입 • 피드백

코딩	EUC-KR • UTF-8 • 값 • 글루웨어 • 노팔로우 링크 • 두팔로우 링크 • 디버깅 • 디코딩 • 마크업 • 버그 • 부트스트랩 • 세이브포인트 • 소스코드 • 시큐어코딩 • 아스키 • 액티브엑스 • 오픈소스 • 유니코드 • 인코딩 • 재컴파일 • 주석 • 컴파일 • 컴퓨터 프로그램 • 코드 • 코딩 • 태그 • 테스트 • 테이블 • 텍스트 • 파싱 • 퍼블리싱 • 퓨니코드 • 하드코딩 • 하이퍼링크 • 하이퍼텍스트

프로그래밍	C 명령어 • 객체 • 객체지향 • 객체지향 프로그래밍 • 거짓 • 관계연산자 • 기본형 변수 • 널 • 논리 • 논리연산 • 논리연산자 • 다중상속 • 다형성 • 대입 • 대입문 • 대입연산자 • 더블 • 도스 명령어 • 디폴트 • 레지스터변수 • 루프 • 리눅스 명령어 • 리턴 • 메모리 주소 • 메소드 • 멤버 • 명령문 • 명령어 • 무한루프 • 문자 • 문자열 • 바이트 • 반복문 • 배열 • 변수 • 분기 • 분기문 • 불린 • 브레이크 • 비교연산자 • 비트연산자 • 산술연산자 • 상속 • 상수 • 생성자 • 선언 • 선언문 • 설정자 • 속성 • 스위치 • 스태틱 • 시프트연산자 • 실행 • 실행문 • 어노테이션 • 에코 • 역참조 • 연산 • 연산문 • 연산자 • 오버로딩 • 오버라이딩 • 외부변수 • 윈도우 명령어 • 유닉스 명령어 • 인스턴스 • 인스트럭션 • 인클루드 • 인터페이스 • 임포트 • 입력 • 입력문 • 입출력 • 입출력문 • 자료형(데이터 타입) • 자바 명령어 • 자바 예약어 • 자바 컬렉션 • 전역변수 • 접근자 • 접근제어자 • 정보은닉 • 정수형 • 정적변수 • 제어 • 제어문 • 제어자 • 조건 • 조건문 • 조건연산자 • 주소 • 증감연산자 • 지역변수 • 참 • 참조 • 참조변수 • 초기화 • 추상메소드 • 추상클래스 • 추상화 • 출력 • 출력문 • 캡슐화 • 케이스 • 클래스 • 파라미터(매개변수) • 파이널 • 패키지 • 퍼블릭 • 포인터 • 프라이빗 • 프로텍티드 • 필드(멤버변수) • 함수 • 환경변수

명령어	abstract • array • boolean • break • byte • case • char • continue • default • double • do while • echo • elif • else • else if • false • final • float • for • gosub • goto • if • if else • import • include • int • join • long • long long • null • print • printf • println • private • protected • public • return • scanf • short • stdio.h • static • string • switch • temp • then • true • unsigned • void • while

디자인패턴	구조패턴 • 동시성패턴 • 동시실행패턴 • 모델-뷰-컨트롤러 패턴 • 상태패턴 • 생성패턴 • 싱글톤패턴 • 아키텍처패턴 • 전략패턴 • 커맨드패턴 • 행동패턴

프로그래밍 인물	귀도 반 로썸 • 그레이스 머레이 호퍼 • 니클라우스 비르트 • 댄 브릭클린 • 더그 커팅 • 데니스 리치 • 리누스 토르발스 • 리처드 그린블라트 • 마거릿 해밀턴 • 마크 앤드리슨 • 빈트 서프 • 빌 게이츠 • 빌 조이 • 스티브 잡스 • 에이다 러브레이스 • 제임스 고슬링 • 척 벤턴 • 켄 톰슨 • 팀 패터슨

위키 : 자동차, 교통, 지역, 지도, 산업, 기업, 단체, 업무, 생활, 쇼핑, 블록체인, 암호화폐, 인공지능, 개발, 인물, 행사, 일반

[1] 〈원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용〉, 《삼성디스플레이 뉴스룸》, 2020-04-22

[2] 〈검색 엔진〉, 《나무위키》

[.EB.82.98.EB.AC.B4.EC.9C.84.ED.82.A4-3] 〈크롤링〉 ,《나무위키》

[1]

[2]

[3]

@@ 4번째 줄: / 4번째 줄: @@
 ==개요==
 크롤링은 웹페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로써 크롤링하는 [[소프트웨어]]는 [[크롤러]](crawler)라고 한다.
-[[검색엔진]](search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 [[웹]] 상에 존재하는 [[정보]]와 웹 사이트를 검색하기 위한 프로그램이며 [[스파이더]](spider),[[봇]](bot), 지능 에이전트라고도 한다. 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, [[로봇]]의 검색 가능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버, 구글 등도 이런 봇을 이용해 운영된다. <ref name="나무위키"> 〈[https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 크롤링]〉 ,《나무위키》</ref>
+[[검색엔진]](search engine)에서도 유사한 것을 필수적으로 사용한다. 검색엔진(search engine)은 [[웹]] 상에 존재하는 [[정보]]와 웹 사이트를 검색하기 위한 프로그램이며 [[스파이더]](spider),[[봇]](bot), 지능 에이전트라고도 한다.<ref>〈[https://namu.wiki/w/%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84 검색 엔진]〉, 《나무위키》</ref> 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 단, [[로봇]]의 검색 가능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 참고로 네이버, 구글 등도 이런 봇을 이용해 운영된다. <ref name="나무위키"> 〈[https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 크롤링]〉 ,《나무위키》</ref>
 ==활용==
@@ 17번째 줄: / 17번째 줄: @@
 ==참고자료==
 * 〈[https://news.samsungdisplay.com/22907/ 원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용]〉, 《삼성디스플레이 뉴스룸》, 2020-04-22
+* 〈[https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 크롤링]〉 ,《나무위키》
+* 〈[https://namu.wiki/w/%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84 검색 엔진]〉, 《나무위키》
 ==같이 보기==

위키원

이름공간

변수

보기

더 보기

검색