본문 바로가기
반응형

프로그래밍/Python25

UnicodeDecodeError: 'ascii' codec can't decode byte 0xec in position 0: ordinal not in range(128) 오류 파이썬 참 utf-8 오류가 특히 많이 나네요... UnicodeDecodeError: 'ascii' codec can't decode byte 0xec in position 0: ordinal not in range(128) 전 이 오류가 난 이유는 파이썬 2.7 버전에서 파일을 여는 open 함수를 사용할 때 났습니다. 파이썬 3.6 버전 부터는 open("오픈할 file 명", 'r', -1,"utf-8") 이런식으로 명시하셔야 합니다. 2.7에서는 그냥 open("오픈할 file명",'r') 끝! 2.7은 3.6 처럼 하면 오류가 발생합니다. 즉 ascII 밖에 인식이 안되서 그런것 같더군요 해결법 1. 세팅을 utf-8로 바꾸기. 파이썬 설치 경로 / Lib / site-packages 에 si.. 2018. 12. 1.
Python(파이썬) 명사 분리 추출 후, 단어 사용 빈도 계산기(Web Cralwer) 0. 전 포스트 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 Python(파이썬)크롤링 한 파일에 불필요한 문자 제거(Web Cralwer) -3 전 포스트에 특정 단어로 동아일보의 신문 기사를 원하는 page만큼 크롤링 해보았습니다. 아마 따라해보신 분들은 out.txt 에 아래와 같은 내용이 생성 되었을 것입니다. 이번에는 이 추출한 기사에서 명사만 추출하고 갯수를 세는 프로그램을 만들어보도록 하겠습니다. 실행 환경 : 파이썬 3.6버전 1. 시작 천천히 코드 부터 살펴보도록 하죠. 1 2 from konlpy.tag import Twitter from co.. 2018. 12. 1.
UnicodeEncodeError: 'cp949' codec can't encode character '©' in position 31: illegal multibyte sequence 오류 파이썬의 정말정말 정말 많이 나는 오류 이번에는 오류가 이렇게 떳네요 UnicodeEncodeError: 'cp949' codec can't encode character '\xa9' in position 31: illegal multibyte sequence 구글링을 해보니 파일의 읽기 쓰기 오류 해결법! 1. UTF-8 붙여주기 python3부터 UTF-8로 된 파일은 오류가 납니다. open의 기본형 open(name[, mode[, buffering]]) open(...) open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True) -> file object원래 제가 썻던 코드는 open(file.. 2018. 12. 1.
Python(파이썬)크롤링 한 파일에 불필요한 문자 제거(Web Cralwer) -3 3. 전 시간 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 여기 까지 출력 되는 것을 해보았습니다 하지만 특수문자 (\n, ], [,) 등등 쓸데없는 문자가 많습니다. 이런 쓸데없는 문자를 제거해보도록 하겠습니다. 1 2 3 4 5 import re # 입,출력 파일명 INPUT_FILE_NAME = 'out.txt' OUTPUT_FILE_NAME = 'out_clean.txt' cs import re는 정규식 표현을 활용하기 위해 're' 라는 라이브러리를 임포트하였습니다. clean_text 함수 1 2 3 4 5 6 def clean_text(text): .. 2018. 12. 1.
반응형