반응형 프로그래밍/Python25 Web Crawler(BeautifulSoup의 find, findAll 함수 사용해보기) 1. 이어서 크롤러의 꽃!! 웹 페이지를 분석하여 정보를 뽑아내는 일 먼저 naver 홈페이지에 있는 실시간 검색 순위를 가져오는 연습을 해봅시다. naver 홈페이지에서 F12 키를 누르고 Ctrl+F 로 실시간 검색중 하나를 찾아보면 아래와 같이 뜹니다. 실시간 급상승 검색어 아래에 이언주 이라고 뜹니다 위 1 이라고 적힌 숫자는 검색 순위를 뜻하고 아래는 검색어 순으로 되어있습니다. 참고로 은 html 태그로써 텍스트를 꾸며줄 수 있는 역할을 합니다. 여기서 꾸며줄 수 있는 class 는 css로 정의되어 있습니다. 위 찾은 정보를 통해서 간단한 Python 코드를 작성해 봅니다. 여기서 .findAll 이라는 함수를 통해서 정보를 찾습니다. 1 2 3 4 5 6 7 8 9 from urllib.r.. 2018. 12. 1. Web scraping with python(urlopen) 기초,연습 0. 들어가기 대학교 과제로 웹 크롤러를 만들면 교수님들이 좋아신다. 1. 기초 지난 시간에 설치까지 해보고 예제코드 까지 해보았습니다.url 입력을 받을 수 있는 urllib.request를 추가합니다. 1 2 3 4 5 6 from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://naver.com") bsObj=BeautifulSoup(html.read(),"lxml"); print(bsObj.h1) cs 읽어드린 html 파일을 BeautifulSoup로 분석할 수 있도록 추가합니다. html 변수에 읽어드린 네이버 홈페이지를 BeautifulSoup로 변환한 후 print로 출력할때 h1의 태그로 된 .. 2018. 12. 1. Reactive Python for Data. 0. Reactive Python 소개 Reactive Python 프로그래밍은 이벤트를 데이터 및 데이터 이벤트로 다루는데 효과적인 방법입니다. RxPy를 사용하여 RxPy의 푸시 기반 반복 및 체인과 같은 연산자를 활용하여 논리 및 동시성을 표현하는 방법을 학습할 수 있습니다.- rx (reactive extention 설치)cmd >>pip install rx from rx import Observableletters=Observable.from_(["Alpha",Beta","Gamma","Delta","Epsilon"]) Observable로 아이템들을 넣을 수 있습니다. 예제에서는 5개의 아이템을 추가하였습니다.from_ 통하여 리스트 형태로 5개 스트링이 순차적으로 letters변수 안.. 2018. 12. 1. Python urllib의 requests 모듈, BeautifuleSoup 설치 1. 준비 인터넷 자원을 접근할 수 있도록 해주는 urllib가 있습니다urllib는 파이썬에 기본적으로 내장되어 있기때문에 파이썬을 깔면 바로 사용하실 수 있습니다. ex) import urllib 하지만 urllib패키지는 사용법이 쉽지 않고 간단한 처리에도 꽤 많은 라인의 코딩이 필요합니다. 그래서 최근 urllib패키지 대신에 requests모듈도 많이 사용합니다. -- requests 모듈 설치cmd 창에 C:\>pip install requests를 입력하면 바로 설치할 수 있습니다. -- BeautifulSoup4 설치 (긁어온 정보를 가독성이 좋게 바꿔줍니다)C:\>pip install beautifulsoup4예제 코딩 import requests from bs4 im.. 2018. 12. 1. 이전 1 ··· 3 4 5 6 7 다음 반응형