Python3网络爬虫实战-13、部署相关库ScrapydClient、ScrapydAPI

发布时间：2020-12-20 12:52:06 所属栏目：Python 来源：网络整理

导读：ScrapydClient的安装在将 Scrapy 代码部署到远程 Scrapyd 的时候，其第一步就是要将代码打包为 Egg 文件，其次需要将 Egg 文件上传到远程主机，这个过程如果我们用程序来实现是完全可以的，但是我们并不需要做这些工作，因为 ScrapydClient 已经为我们实现

ScrapydClient的安装

在将 Scrapy 代码部署到远程 Scrapyd 的时候，其第一步就是要将代码打包为 Egg 文件，其次需要将 Egg 文件上传到远程主机，这个过程如果我们用程序来实现是完全可以的，但是我们并不需要做这些工作，因为 ScrapydClient 已经为我们实现了这些功能。
下面我们就来过一下 ScrapydClient 的安装过程。

1. 相关链接

GitHub：https://github.com/scrapy/scr...
PyPi：https://pypi.python.org/pypi/...
使用说明：https://github.com/scrapy/scr...

2. Pip安装

推荐使用 Pip 安装，命令如下：

pip3 install scrapyd-client

3. 验证安装

安装成功后会有一个可用命令，叫做 scrapyd-deploy，即部署命令。
我们可以输入如下测试命令测试 ScrapydClient 是否安装成功：

scrapyd-deploy -h

如果出现如图 1-87 类似输出则证明 ScrapydClient 已经成功安装:

图 1-87 运行结果
在后文我们会详细了解它的用法。

ScrapydAPI的安装

安装好了 Scrapyd 之后，我们可以直接请求它提供的 API 即可获取当前主机的 Scrapy 任务运行状况。

如某台主机的 IP 为 192.168.1.1，则可以直接运行如下命令获取当前主机的所有 Scrapy 项目：

curl http://localhost:6800/listprojects.json
Python资源分享qun 784758214,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

运行结果：

{"status": "ok","projects": ["myproject","otherproject"]}

返回结果是 Json 字符串，通过解析这个字符串我们便可以得到当前主机所有项目。

但是用这种方式来获取任务状态还是有点繁琐，所以 ScrapydAPI 就为它做了一层封装，下面我们来看下它的安装方式。

1. 相关链接

GitHub：https://pypi.python.org/pypi/...
PyPi：https://pypi.python.org/pypi/...
官方文档：http://python-scrapyd-api.rea...

2. Pip安装

推荐使用 Pip 安装，命令如下：

pip install python-scrapyd-api

3. 验证安装

安装完成之后便可以使用 Python 来获取主机状态了，所以如上的操作便可以用 Python 代码实现：

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI(‘http://localhost:6800‘)
print(scrapyd.list_projects())

运行结果：

["myproject","otherproject"]
Python资源分享qun 784758214,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

这样我们便可以用 Python 直接来获取各个主机上 Scrapy 任务的运行状态了。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!