본문 바로가기
프로그래밍/Python

(파이썬Python) Scrapy VS BeautifulSoup (웹 크롤링 패키지)

by LiveData 2018. 12. 1.
반응형

이전 Python 포스팅에서 BeautifulSoup를 이용하여 단어빈도 수 웹 크롤러를 만들어 보았습니다. 



Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1

Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2

Python(파이썬)크롤링 한 파일에 불필요한 문자 제거(Web Cralwer) -3

Python(파이썬) 명사 분리 추출 후, 단어 사용 빈도 계산기(Web Cralwer)

Python(파이썬) 추출한 명사 빈도를 그림으로 시각화하기(Web Cralwer)




하지만 BeautifulSoup 이외에 Scrapy, lxml 등 여러 파이썬 웹 크롤러가 존재하는데

여기서 Scrapy와 BeautifulSoup에 대해 비교해 보겠습니다.





Scrapy  VS  BeautifulSoup



▶  특징
 

BeautifulSoup
  • 배우기 쉽다.
  • 빠른개발이 가능
  • 다른 패키지인 urllib, request 가 필요

Scarpy
  • 웹 크롤링 프레임워크
  • 비동기 네트워크
  • 크롤링 속도 조절 가능



▶  비교


1. 배우기

BeautifulSoup > Scrapy
Scrapy가 BeautifulSoup보다 배우기가 어렵고 힘듭니다.


2. 쓰임세

Scrapy > BeautifulSoup
확장성이 더 좋은 Scrapy가 더 많이 쓰인다.


3. 확장성

Scrapy > BeautifulSoup
BeautifulSoup는 확장하기 어렵지만
Scrapy는 사용자 변경이 가능해서 확장이 용이하다.


4. 효율성

Scrapy > BeautifulSoup
Scrapy가 비동기로써 더 빠르다.
BeautifulSoup가 빠르게 하기 위해선 "multiprocessing" 을 추가해야함



▶  결론 

프로그래밍 경험이 많이 없거나 간단한 프로젝트일 경우 BeautifulSoup
큰 프로젝트거나 나중 확장이 용이하게 하려면 Scrapy






원문 


반응형