Python編碼格式錯誤解決方案及案例

发布时间：2020-12-20 12:57:46 所属栏目：Python 来源：网络整理

导读：Python格式錯誤解決方案及案例這幾天在玩爬蟲，在解析和提取内容時經常出現由於内容格式問題導致出錯，為防止以後出錯，整下一下，以下是這幾天的總結： 1. 特殊符號或表情符號等背景：爬取一個烹飪教學網站，在用BeautifulSoup解析網頁時報錯： UnicodeE

Python格式錯誤解決方案及案例

　　這幾天在玩爬蟲，在解析和提取内容時經常出現由於内容格式問題導致出錯，為防止以後出錯，整下一下，以下是這幾天的總結：

　　1. 特殊符號或表情符號等

　　　　背景：爬取一個烹飪教學網站，在用BeautifulSoup解析網頁時報錯：

　　　　UnicodeEncodeError: ‘UCS-2‘ codec can‘t encode character ‘U0001f44d‘ in position 0: Non-BMP character not supported in Tk

　　　　解決方法：

　　　　import sys

　　　　non_bmp_map = dict.fromkeys(range(0x10000,sys.maxunicode + 1),0xfffd)

　　　　targetText=targetText.translate(non_bmp_map)

　　　　其中targetText即你需要轉化的文本。

　　2. csv中寫入中文出現亂碼

　　　　背景：csv module是經典的操作csv控件的方法，一般來説操作csv文件都會用‘utf-8‘格式編碼,如下：

import csv 

targetText=[‘abc‘,‘efg‘]

csv_target=open(‘mycsv.csv‘,‘a+‘,newlien=‘‘,encoding=‘utf-8‘)

writer=csv.writer(csv_target)

writer.writerow(targetText)

csv_target.close()

往其中寫入中文時(即targetText包含中文時，如targetText=[‘張三‘,‘李四‘])會出現亂碼。

　　　　解決方法：修改編碼方式為‘utf-8-sig‘

import csv 

targetText=[‘張三‘,‘李四‘]

csv_target=open(‘mycsv.csv‘,encoding=‘utf-8‘)

writer=csv.writer(csv_target)

writer.writerow(targetText)

csv_target.close()

　　python的編碼格式是個大坑.

　　暫時先更新到這，後面遇到再繼續更新。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!