본문 바로가기
반응형

전체 글188

Python(파이썬)크롤링 한 파일에 불필요한 문자 제거(Web Cralwer) -3 3. 전 시간 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 여기 까지 출력 되는 것을 해보았습니다 하지만 특수문자 (\n, ], [,) 등등 쓸데없는 문자가 많습니다. 이런 쓸데없는 문자를 제거해보도록 하겠습니다. 1 2 3 4 5 import re # 입,출력 파일명 INPUT_FILE_NAME = 'out.txt' OUTPUT_FILE_NAME = 'out_clean.txt' cs import re는 정규식 표현을 활용하기 위해 're' 라는 라이브러리를 임포트하였습니다. clean_text 함수 1 2 3 4 5 6 def clean_text(text): .. 2018. 12. 1.
Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 2. 지난 시간에 이어서 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 지난 시간에 import와 target주소의 원리를 알아보았습니다. 이번에 메인 함수를 구현해 봅시다. 메인함수. 1 2 3 4 5 6 7 8 9 10 11 12 13 def main(): keyword = "대통령선거" #검색하고 하는 단어 page_num = 5 #가져올 페이지 숫자 output_file_name = "out.txt" #출력할 파일명 target_URL = TARGET_URL_BEFORE_PAGE_NUM + TARGET_URL_BEFORE_KEYWORD \ + quote(keyword) + TARGET_URL_REST output_file = open(output_f.. 2018. 12. 1.
Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 1. 시작 동아일보, 한겨레 신문에서 이슈 단어 크롤링 하기!! 특정 단어가 포함된 신문기사를 읽어드려 그 기사를 크롤링 하는 프로그램입니다.. 아래의 홈페이지가 동아일보 기사가 쓰인 홈페이지입니다. http://www.donga.com/# 간단한 원리를 설명하자면 1. 특정 단어를 통해서 신문기사를 검색해 관련 기사의 목록을 얻어온다. 2. URL 주소 패턴을 분석해 반복문으로 여러 목록 페이지를 돌며 올라와 있는 URL을 얻어온다. 3. 얻어낸 기사의 링크 주소를 하나하나 접근하여 본문 내용만 추출해 파일에 저장한다. 끝. 결국 주요 원리는 URL 주소 패턴으로 기사 내용 추출! 코드 설명 1 2 3 4 import sys from bs4 import BeautifulSoup import urllib.. 2018. 12. 1.
Python PIP Install Numpy throws an error “ascii codec can't decode byte 0xe2” 오류 1. UnicodeDecodeError: 'ascii' codec can't decode byte 0xae in position 11 pip를 사용하시다가 이런 오류를 보실 수 있습니다. 제가 이 오류를 발견한 것은 제 노트북에서 pip를 사용하려고 할때 발생했습니다. 제가 찾아본 결과 UTF-8 즉 유니코드 읽어야 하는데 ascii로 되어있어 해독을 할 수 없다는 뜻입니다. 문제는 무엇일까요? 바로 다운로드 할 상위 폴더가 "한글" 로 되어있기 때문입니다. 제 데스크탑에 설치할 때는 아무 오류가 안떳는데 노트북의 관리자명을 무의식적으로 한글로 적어버려서 상위 폴더에 제 관리자 한글이 적혀있었습니다. (관리자 명을 바꿔도 폴더 명을 다 바꾸지 않는이상 오류가 계속 날겁니다.) 결국 포맷 후 영어로 변경하.. 2018. 12. 1.
반응형