基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复

发布时间：2020-12-17 17:03:33 所属栏目：Python 来源：网络整理

导读：一、课程介绍目前，我们的微信公众号只支持文本接收和倒序回复，略单调。本节课将糗百网站的笑话爬取过来，自动回复给用户。因此本节首先需要实现一个爬虫，并把爬取的数据按照上一节实现的方式回复给用户。二、实现爬虫我们选择爬取的目标是糗事百科的纯

一、课程介绍

目前，我们的微信公众号只支持文本接收和倒序回复，略单调。本节课将糗百网站的笑话爬取过来，自动回复给用户。因此本节首先需要实现一个爬虫，并把爬取的数据按照上一节实现的方式回复给用户。

二、实现爬虫

我们选择爬取的目标是糗事百科的纯文本内容，地址为糗事百科-纯文，下面这个是这个链接的纯文内容页面，一页共20条记录，注意中间会有一段广告:

糗事百科-纯文

然后呢，放上对应的爬虫代码，这里用到的库是 lxml，lxml 是解析 XML 的库。XML 和 HTML 是极其类似的，所以这样是可以用。

代码中的实现原理比较简单，从 URL 获取页面内容，使用 lxml 的 etree 提取页面信息，详细步骤可以见代码注释:

import?requests
from?random?import?randint
from?lxml?import?etree
r?=?requests.get(url)
tree?=?etree.HTML(r.text)
contentlist?=?tree.xpath('//div[contains(@id,?"qiushi_tag_")]')
#匹配div的标签，如果id中含有'qiushi_tag_'，则存入list列表中，最后返回【从该页的HTML中能拿到包含20个结果的List列表】
jokes?=?[]#最后存储结果的列表
for?i?in?contentlist:
#这个for循环呢，就是从每个含有笑话的代码块，提出我们需要的笑话的具体内容
????content?=?i.xpath('div[@class="content"]/text()')
????#因为content和number得到的是list列表，只含有一个元素的list列表，join提出，明白了吧
????contentstring?=?''.join(content)
????#然后就是去掉两端的换行符，就得到了我们需要的笑话内容了
????contentstring?=?contentstring.strip('n')
????jokes.append(contentstring)
????#最后插入到jokes列表中，就得到了我们需要的笑话集合
return?jokes[randint(0,len(jokes))]

#最后呢返回jokes的其中一条内容，返回就可以了

爬虫抓取笑话的整个过程，就是这些，现在可以准备回复微信消息了。

回复消息的方法请参考上一节的实现内容。

三、可运行的代码

附上本节可运行代码 wechat.py，一起运行试试，运行不成功，检查错误报告，查看是否未安装需要的库。

实验楼的环境中需要安装下面的库后才可以运行:

$?sudo?apt-get?install?python-lxml
$?sudo?pip?install?flask

详细的代码如下:

import?requests
from?random?import?randint
from?lxml?import?etree
from?flask?import?Flask,?request,?make_response
import?hashlib
app?=?Flask(__name__)
@app.route('/shiyanlou')
def?hello():
????return?"Python?Say:?Hello?Shiyanlou"
@app.route('/',methods=['GET','POST'])
def?wechat_auth():
????if?request.method?==?'GET':
????????print?'coming?Get'
????????data?=?request.args
????????token?=?'*******************'
????????signature?=?data.get('signature','')
????????timestamp?=?data.get('timestamp','')
????????nonce?=?data.get('nonce','')
????????echostr?=?data.get('echostr','')
????????s?=?[timestamp,nonce,token]
????????s.sort()
????????s?=?''.join(s)
????????if?(hashlib.sha1(s).hexdigest()?==?signature):
????????????return?make_response(echostr)
????if?request.method?==?'POST':
????????xml_str?=?request.stream.read()
????????xml?=?ET.fromstring(xml_str)
????????toUserName=xml.find('ToUserName').text
????????fromUserName?=?xml.find('FromUserName').text
????????createTime?=?xml.find('CreateTime').text
????????msgType?=?xml.find('MsgType').text
????????if?msgType?!=?'text':
????????????reply?=?'''????????????<xml>
????????????<ToUserName><![CDATA[%s]]></ToUserName>
????????????<FromUserName><![CDATA[%s]]></FromUserName>
????????????<CreateTime>%s</CreateTime>
????????????<MsgType><![CDATA[%s]]></MsgType>
????????????<Content><![CDATA[%s]]></Content>
????????????</xml>
????????????'''?%?(
????????????????fromUserName,?
????????????????toUserName,?
????????????????createTime,?
????????????????'text',?
????????????????'Unknow?Format,?Please?check?out'
????????????????)
????????????return?reply
????????content?=?xml.find('Content').text
????????msgId?=?xml.find('MsgId').text
????????if?u'笑话'?in?content:
????????????r?=?requests.get(url)
????????????tree?=?etree.HTML(r.text)
????????????contentlist?=?tree.xpath('//div[contains(@id,?"qiushi_tag_")]')
????????????jokes?=?[]
????????????for?i?in?contentlist:
????????????????content?=?i.xpath('div[@class="content"]/text()')
????????????????contentstring?=?''.join(content)
????????????????contentstring?=?contentstring.strip('n')
????????????????jokes.append(contentstring)
????????????joke?=??jokes[randint(0,len(jokes))]
????????????reply?=?'''????????????????????<xml>
????????????????????<ToUserName><![CDATA[%s]]></ToUserName>
????????????????????<FromUserName><![CDATA[%s]]></FromUserName>
????????????????????<CreateTime>%s</CreateTime>
????????????????????<MsgType><![CDATA[%s]]></MsgType>
????????????????????<Content><![CDATA[%s]]></Content>
????????????????????</xml>
????????????????????'''?%?(fromUserName,?toUserName,?createTime,?msgType,?joke)
????????????return?reply
????????else:
????????????if?type(content).__name__?==?"unicode":
????????????????content?=?content[::-1]
????????????????content?=?content.encode('UTF-8')
????????????elif?type(content).__name__?==?"str":
????????????????print?type(content).__name__
????????????????content?=?content.decode('utf-8')
????????????????content?=?content[::-1]
????????????reply?=?'''????????????????????<xml>
????????????????????<ToUserName><![CDATA[%s]]></ToUserName>
????????????????????<FromUserName><![CDATA[%s]]></FromUserName>
????????????????????<CreateTime>%s</CreateTime>
????????????????????<MsgType><![CDATA[%s]]></MsgType>
????????????????????<Content><![CDATA[%s]]></Content>
????????????????????</xml>
????????????????????'''?%?(fromUserName,?content)
????????????return?reply
if?__name__?==?"__main__":
????app.run(host='0.0.0.0',?port=8080)

微信公众平台的开发，已经完成

程序在实验楼中的运行截图:

shiyanlou-run

对话效果截图:

笑话，哈~哈~哈

四、总结

本次实验课，主要是对微信公众平台进行一个简单开发，并添上了逆序回复和回复笑话等功能。涉及到的知识点有 Python、flask，爬虫等知识点，较难的有第一节的服务通信、第二节的编码，第三节的正则匹配爬虫。

一个完整的项目，难得不仅仅是深度，更是广度 --Hello World

这节课只是打了个地基，房子怎么盖还是看自己的爱好，可以发挥你的想象力扩展出更有趣的功能。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

基于 Flask 及爬虫实现微信娱乐机器人 实现笑话爬虫并自动回复

基于 Flask 及爬虫实现微信娱乐机器人实现笑话爬虫并自动回复