Python实现爬取知乎神回复简单爬虫代码分享
看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了。 工具 1.Python 2.7 分析网页 我们先来看看知乎上该网页的情况 网址: 再来看一下我们要爬取的内容: 好,那么下面我们要找到他们在网页源代码中的位置: 然后是回复: 代码 好,这时候我们试着写出python代码: 复制代码 代码如下: # -*- coding: cp936 -*- import urllib2 from BeautifulSoup import BeautifulSoup f = open('howtoTucao.txt','w') #打开文件 for pagenum in range(1,21): #从第1页爬到第20页 strpagenum = str(pagenum) #页数的str表示 for each in ALL : #枚举所有的问题和回答 代码虽然不常,可是写了我半天,开始各种出问题。 运行 然后我们运行就可以爬了: 等运行完毕,我们打开文件howtoTucao.txt,可以看到,这样就爬取成功了。只是格式可能还是有点问题,原来是我No Answer没加换行,所以No Answer还会混到文本里面去,加两个换行就可以了。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |