装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

发布时间：2020-12-17 01:12:38 所属栏目：Python 来源：网络整理

导读：可以看到，scrapy单机模式，通过一个scrapy引擎通过一个调度器，将Requests队列中的request请求发给下载器，进行页面的爬

可以看到，scrapy单机模式，通过一个scrapy引擎通过一个调度器，将Requests队列中的request请求发给下载器，进行页面的爬取。

那么多台主机协作的关键是共享一个爬取队列。

所以，单主机的爬虫架构如下图所示：

前文提到，分布式爬虫的关键是共享一个requests队列，维护该队列的主机称为master，而从机则负责数据的抓取，数据处理和数据存储，所以分布式爬虫架构如下图所示：

2、环境配置

目前已经有专门的python库实现了分布式架构。Scrapy-Redis库改写了Scrapy的调度器，队列等组件，可以方便的实现Scrapy分布式架构。

Scrapy-Redis链接：https://github.com/rolando/scrapy-redis

不过，想要运用这个库，我们需要安装Redis数据库

（1）windows安装redis

下载地址：https://github.com/MSOpenTech/redis/releases

下载完成后，安装即可，非常简单（其实这里没有用到windows的redis，不过装一装也不麻烦），安装完成后，windows的本地redis服务是默认启动的。

接下来可以继续安装一个redis可视化工具，Redis Desktop Manager

下载地址:https://github.com/uglide/RedisDesktopManager/releases

我们选择一个比较稳定的版本进行下载：

安装完成，我们可以测试一下本地的redis环境，输入我们的连接信息：

（3）windows下访问虚拟机redis

我们选择使用虚拟机上的redis数据库来维护爬取队列，所以接下来，我们使用windows下的可视化客户端访问虚拟机下的redis：

可以看到，成功访问：

3、代码实现

使用Scrapy-Redis实现分布式爬虫，需要在scrapy的setting.py中添加如下的配置，当然还有很多其他可用配置，这里只需添加如下的几个就可以实现分布是爬取：

而redis中，则维护了一个爬取队列:

短短几分钟，我们就抓取了百度贴吧聊天吧的100页帖子3900+条，存入了本地的mongodb数据库：

至此，分布式爬虫练手完毕！

如果想要学习python爬虫的话，进群：125240963 ?就行！

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!