반응형 프로그래밍109 UnicodeEncodeError: 'cp949' codec can't encode character '©' in position 31: illegal multibyte sequence 오류 파이썬의 정말정말 정말 많이 나는 오류 이번에는 오류가 이렇게 떳네요 UnicodeEncodeError: 'cp949' codec can't encode character '\xa9' in position 31: illegal multibyte sequence 구글링을 해보니 파일의 읽기 쓰기 오류 해결법! 1. UTF-8 붙여주기 python3부터 UTF-8로 된 파일은 오류가 납니다. open의 기본형 open(name[, mode[, buffering]]) open(...) open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True) -> file object원래 제가 썻던 코드는 open(file.. 2018. 12. 1. Python(파이썬)크롤링 한 파일에 불필요한 문자 제거(Web Cralwer) -3 3. 전 시간 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 여기 까지 출력 되는 것을 해보았습니다 하지만 특수문자 (\n, ], [,) 등등 쓸데없는 문자가 많습니다. 이런 쓸데없는 문자를 제거해보도록 하겠습니다. 1 2 3 4 5 import re # 입,출력 파일명 INPUT_FILE_NAME = 'out.txt' OUTPUT_FILE_NAME = 'out_clean.txt' cs import re는 정규식 표현을 활용하기 위해 're' 라는 라이브러리를 임포트하였습니다. clean_text 함수 1 2 3 4 5 6 def clean_text(text): .. 2018. 12. 1. Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 2. 지난 시간에 이어서 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 지난 시간에 import와 target주소의 원리를 알아보았습니다. 이번에 메인 함수를 구현해 봅시다. 메인함수. 1 2 3 4 5 6 7 8 9 10 11 12 13 def main(): keyword = "대통령선거" #검색하고 하는 단어 page_num = 5 #가져올 페이지 숫자 output_file_name = "out.txt" #출력할 파일명 target_URL = TARGET_URL_BEFORE_PAGE_NUM + TARGET_URL_BEFORE_KEYWORD \ + quote(keyword) + TARGET_URL_REST output_file = open(output_f.. 2018. 12. 1. Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 1. 시작 동아일보, 한겨레 신문에서 이슈 단어 크롤링 하기!! 특정 단어가 포함된 신문기사를 읽어드려 그 기사를 크롤링 하는 프로그램입니다.. 아래의 홈페이지가 동아일보 기사가 쓰인 홈페이지입니다. http://www.donga.com/# 간단한 원리를 설명하자면 1. 특정 단어를 통해서 신문기사를 검색해 관련 기사의 목록을 얻어온다. 2. URL 주소 패턴을 분석해 반복문으로 여러 목록 페이지를 돌며 올라와 있는 URL을 얻어온다. 3. 얻어낸 기사의 링크 주소를 하나하나 접근하여 본문 내용만 추출해 파일에 저장한다. 끝. 결국 주요 원리는 URL 주소 패턴으로 기사 내용 추출! 코드 설명 1 2 3 4 import sys from bs4 import BeautifulSoup import urllib.. 2018. 12. 1. 이전 1 ··· 21 22 23 24 25 26 27 28 다음 반응형