判断网页编码的方法python版
发布时间:2020-12-16 20:28:10 所属栏目:Python 来源:网络整理
导读:在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓
在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。 下面介绍两种判断网页编码的方法: 总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。 方法一:使用urllib模块的getparam方法 import urllib #autor:pythontab.com fopen1 = urllib.urlopen('http://www.baidu.com').info() print fopen1.getparam('charset')# baidu 方法二:使用chardet模块 #如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 #author:pythontab.com import chardet import urllib #先获取网页内容 data1 = urllib.urlopen('http://www.baidu.com').read() #用chardet进行内容分析 chardit1 = chardet.detect(data1) print chardit1['encoding'] # baidu 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持编程小技巧。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |