加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – Scrapy download_delay与max_concurrent_requests_per

发布时间:2020-12-20 13:46:55 所属栏目:Python 来源:网络整理
导读:我对Scrapy中DOWNLOAD_DELAY和MAX_CONCURRENT_REQUESTS_PER_DOMAIN之间的差异和相互作用感到非常困惑. 下载延迟是否会影响每个域的最大并发请求数,例如,如果我设置了10秒的延迟但每个域允许8个并发请求,那些并发请求是否会同时触发但是根据下载延迟而交错,或
我对Scrapy中DOWNLOAD_DELAY和MAX_CONCURRENT_REQUESTS_PER_DOMAIN之间的差异和相互作用感到非常困惑.

下载延迟是否会影响每个域的最大并发请求数,例如,如果我设置了10秒的延迟但每个域允许8个并发请求,那些并发请求是否会同时触发但是根据下载延迟而交错,或者是否会同时被解雇但是回复的下载是错开的?是否有任何理由DOWNLOAD_DELAY不被称为REQUEST_DELAY?

例如,在以下场景中,封装后吞吐量计算的内容是什么:

> start_urls为给定域保存100个URL
> MAX_CONCURRENT_REQUESTS_PER_DOMAIN = 8
> DOWNLOAD_DELAY = 3
>假设服务器需要2秒钟才能生成响应
>假设我们不会生成比start_urls中已有的URL更多的URL

关联的蜘蛛处理此队列需要多长时间?

解决方法

从下载器 source代码

conc = self.ip_concurrency if self.ip_concurrency else self.domain_concurrency
conc,delay = _get_concurrency_delay(conc,spider,self.settings)

因此,似乎行为与this相同,后者说

This setting also affects DOWNLOAD_DELAY: if CONCURRENT_REQUESTS_PER_IP is non-zero,download delay is enforced per IP,not per domain.

所以我认为你不会通过大量的download_delay实现更多的并发性.我在具有自动限制的慢速网络上运行爬虫,并且一次不超过2-3个并发请求.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读