python – Scrapy download_delay与max_concurrent_requests_per

发布时间：2020-12-20 13:46:55 所属栏目：Python 来源：网络整理

导读：我对Scrapy中DOWNLOAD_DELAY和MAX_CONCURRENT_REQUESTS_PER_DOMAIN之间的差异和相互作用感到非常困惑. 下载延迟是否会影响每个域的最大并发请求数,例如,如果我设置了10秒的延迟但每个域允许8个并发请求,那些并发请求是否会同时触发但是根据下载延迟而交错,或

我对Scrapy中DOWNLOAD_DELAY和MAX_CONCURRENT_REQUESTS_PER_DOMAIN之间的差异和相互作用感到非常困惑.

下载延迟是否会影响每个域的最大并发请求数,例如,如果我设置了10秒的延迟但每个域允许8个并发请求,那些并发请求是否会同时触发但是根据下载延迟而交错,或者是否会同时被解雇但是回复的下载是错开的？是否有任何理由DOWNLOAD_DELAY不被称为REQUEST_DELAY？

例如,在以下场景中,封装后吞吐量计算的内容是什么：

> start_urls为给定域保存100个URL
> MAX_CONCURRENT_REQUESTS_PER_DOMAIN = 8
> DOWNLOAD_DELAY = 3
>假设服务器需要2秒钟才能生成响应
>假设我们不会生成比start_urls中已有的URL更多的URL

关联的蜘蛛处理此队列需要多长时间？

解决方法

从下载器 source代码

conc = self.ip_concurrency if self.ip_concurrency else self.domain_concurrency
conc,delay = _get_concurrency_delay(conc,spider,self.settings)

因此,似乎行为与this相同,后者说

This setting also affects DOWNLOAD_DELAY: if CONCURRENT_REQUESTS_PER_IP is non-zero,download delay is enforced per IP,not per domain.

所以我认为你不会通过大量的download_delay实现更多的并发性.我在具有自动限制的慢速网络上运行爬虫,并且一次不超过2-3个并发请求.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!