加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > C语言 > 正文

关于python网页爬虫编码错误

发布时间:2020-12-15 01:20:15 所属栏目:C语言 来源:网络整理
导读:table class="python" tr class="li1" td class="ln"pre class="de1"1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 换成了 ,因为都是python3的编码不错。?在用 . . 获取到网页内容并且read . ? utf- t
<tr class="li1">
<td class="ln"><pre class="de1">1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

换成了,因为都是python3的编码不错。 ? 在用..获取到网页内容并且read. ? utf-t decode byte position : illegal multibyte sequence 然后尝试 ? 最后google错误在一个网站上看到,说有可能是因为网站压缩,read到的数据可能是压缩后的页面,所以在转码的时候有些内容无法被转成utf8的编码。这个说法很有可能,于是尝试了一下。 ? response ..url response.. 得到的结构是,看来果然是压缩了。只能用Gzip模块解压了,直接上处理的结果: ? io Test: ? ? ? : ? ? ? ? . : ? ? ? getIndexPageindex: ? ? ? ? indexPage index ? ? ? ? response ..urlindexPageheaders. ? ? ? ? content ..response ? ? ? ? ? ? ? ? content. ? ? ? ? ? ? ? ? content.. : ? ? ? ? ? ? outdata io. ? ? ? ? ? ? gf .fileobjoutdatamode ? ? ? ? ? ? gf.. ? ? ? ? : ? ? ? ? ? ? ? ? ? ? outdata . ? ? ? ? outdata(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

<table class="python">

    推荐文章
      热点阅读