关于python网页爬虫编码错误

发布时间：2020-12-15 01:20:15 所属栏目：C语言来源：网络整理

导读：table class="python" tr class="li1" td class="ln"pre class="de1"1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 换成了，因为都是python3的编码不错。?在用 . . 获取到网页内容并且read . ? utf- t

<tr class="li1">
<td class="ln"><pre class="de1">1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

换成了，因为都是python3的编码不错。 ? 在用..获取到网页内容并且read. ? utf-t decode byte position : illegal multibyte sequence 然后尝试 ? 最后google错误在一个网站上看到，说有可能是因为网站压缩，read到的数据可能是压缩后的页面，所以在转码的时候有些内容无法被转成utf8的编码。这个说法很有可能，于是尝试了一下。 ? response ..url response.. 得到的结构是，看来果然是压缩了。只能用Gzip模块解压了，直接上处理的结果： ? io Test: ? ? ? : ? ? ? ? . : ? ? ? getIndexPageindex: ? ? ? ? indexPage index ? ? ? ? response ..urlindexPageheaders. ? ? ? ? content ..response ? ? ? ? ? ? ? ? content. ? ? ? ? ? ? ? ? content.. : ? ? ? ? ? ? outdata io. ? ? ? ? ? ? gf .fileobjoutdatamode ? ? ? ? ? ? gf.. ? ? ? ? : ? ? ? ? ? ? ? ? ? ? outdata . ? ? ? ? outdata（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!