반응형 프로그래밍/Python25 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 2. 지난 시간에 이어서 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 지난 시간에 import와 target주소의 원리를 알아보았습니다. 이번에 메인 함수를 구현해 봅시다. 메인함수. 1 2 3 4 5 6 7 8 9 10 11 12 13 def main(): keyword = "대통령선거" #검색하고 하는 단어 page_num = 5 #가져올 페이지 숫자 output_file_name = "out.txt" #출력할 파일명 target_URL = TARGET_URL_BEFORE_PAGE_NUM + TARGET_URL_BEFORE_KEYWORD \ + quote(keyword) + TARGET_URL_REST output_file = open(output_f.. 2018. 12. 1. Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 1. 시작 동아일보, 한겨레 신문에서 이슈 단어 크롤링 하기!! 특정 단어가 포함된 신문기사를 읽어드려 그 기사를 크롤링 하는 프로그램입니다.. 아래의 홈페이지가 동아일보 기사가 쓰인 홈페이지입니다. http://www.donga.com/# 간단한 원리를 설명하자면 1. 특정 단어를 통해서 신문기사를 검색해 관련 기사의 목록을 얻어온다. 2. URL 주소 패턴을 분석해 반복문으로 여러 목록 페이지를 돌며 올라와 있는 URL을 얻어온다. 3. 얻어낸 기사의 링크 주소를 하나하나 접근하여 본문 내용만 추출해 파일에 저장한다. 끝. 결국 주요 원리는 URL 주소 패턴으로 기사 내용 추출! 코드 설명 1 2 3 4 import sys from bs4 import BeautifulSoup import urllib.. 2018. 12. 1. Python PIP Install Numpy throws an error “ascii codec can't decode byte 0xe2” 오류 1. UnicodeDecodeError: 'ascii' codec can't decode byte 0xae in position 11 pip를 사용하시다가 이런 오류를 보실 수 있습니다. 제가 이 오류를 발견한 것은 제 노트북에서 pip를 사용하려고 할때 발생했습니다. 제가 찾아본 결과 UTF-8 즉 유니코드 읽어야 하는데 ascii로 되어있어 해독을 할 수 없다는 뜻입니다. 문제는 무엇일까요? 바로 다운로드 할 상위 폴더가 "한글" 로 되어있기 때문입니다. 제 데스크탑에 설치할 때는 아무 오류가 안떳는데 노트북의 관리자명을 무의식적으로 한글로 적어버려서 상위 폴더에 제 관리자 한글이 적혀있었습니다. (관리자 명을 바꿔도 폴더 명을 다 바꾸지 않는이상 오류가 계속 날겁니다.) 결국 포맷 후 영어로 변경하.. 2018. 12. 1. Python 한국어 형태소 분석기 모듈 konlpy 설치하기(jpype,wheel,numpy) 1. 설치하기 먼저 konlpy 를 사용하려고 합니다. konlpy는 명사를 분리 추출하기 위해 한국어 형태소 분석기 입니다. 만약 konlpy 를 다운 받지 않으면 이런 오류가 뜹니다 "jpype" 모듈이 없다고 뜨네요 http://konlpy.org/ko/latest/install/#id2 위의 사이트에 가서 Jpype와 konlpy의 정식 설치법을 볼 수 있습니다. 아래 설명처럼 저렇게 설치해야 한다고 써져 있는데 문제점이 있습니다. **주의 OS버전으로 맞추는게 아니라 Python버전으로 맞추어야 합니다. 앞에 2번 JDK 설치 하라고 하는데 JDK 버전을 맞춰주셔야 합니다. 64비트 or 32비트 (python 홈페이지 메인에 있는 것을 설치하시면 32bit를 다운받으셔야 합니다.) 안할경우 실.. 2018. 12. 1. 이전 1 2 3 4 5 6 7 다음 반응형