Python編碼格式錯誤解決方案及案例
Python格式錯誤解決方案及案例這幾天在玩爬蟲,在解析和提取内容時經常出現由於内容格式問題導致出錯,為防止以後出錯,整下一下,以下是這幾天的總結: 1. 特殊符號或表情符號等 背景:爬取一個烹飪教學網站,在用BeautifulSoup解析網頁時報錯: UnicodeEncodeError: ‘UCS-2‘ codec can‘t encode character ‘U0001f44d‘ in position 0: Non-BMP character not supported in Tk 解決方法: import sys non_bmp_map = dict.fromkeys(range(0x10000,sys.maxunicode + 1),0xfffd) targetText=targetText.translate(non_bmp_map) 其中targetText即你需要轉化的文本。 ? 2. csv中寫入中文出現亂碼 背景:csv module是經典的操作csv控件的方法,一般來説操作csv文件都會用‘utf-8‘格式編碼,如下:
import csv targetText=[‘abc‘,‘efg‘] csv_target=open(‘mycsv.csv‘,‘a+‘,newlien=‘‘,encoding=‘utf-8‘) writer=csv.writer(csv_target) writer.writerow(targetText) csv_target.close() 往其中寫入中文時(即targetText包含中文時,如targetText=[‘張三‘,‘李四‘])會出現亂碼。 ? 解決方法:修改編碼方式為‘utf-8-sig‘ import csv targetText=[‘張三‘,‘李四‘] csv_target=open(‘mycsv.csv‘,encoding=‘utf-8‘) writer=csv.writer(csv_target) writer.writerow(targetText) csv_target.close()
python的編碼格式是個大坑. 暫時先更新到這,後面遇到再繼續更新。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |