Python使用scrapy采集数据过程中放回下载过大页面的方法
发布时间:2020-12-16 19:58:21 所属栏目:Python 来源:网络整理
导读:本篇章节讲解Python使用scrapy采集数据过程中放回下载过大页面的方法。供大家参考研究。具体分析如下: 添加以下代码到settings.py,myproject为你的项目名称 复制代码 代码如下: DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHT
本篇章节讲解Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下: 添加以下代码到settings.py,myproject为你的项目名称 复制代码 代码如下: DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'
自定义限制下载过大页面的模块 复制代码 代码如下: MAX_RESPONSE_SIZE = 1048576 # 1Mb
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory,ScrapyHTTPPageGetter class LimitSizePageGetter(ScrapyHTTPPageGetter): def handleHeader(self,key,value): ScrapyHTTPPageGetter.handleHeader(self,value) if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE: self.connectionLost('oversized') class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory): protocol = LimitSizePageGetter 希望本文所述对大家的Python程序设计有所帮助。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- python – AssertionError:col应该是Column
- 利用Python写一款京东自动抢货的脚本!秒杀价?百台电脑也抢
- Python有用的内置函数divmod,id,sorted,enumerate,input,oc
- python – KeyError:运行打包代码时为0L
- python – 捕获崩溃的子进程的“分段错误”消息:在调用com
- Python:“subprocess.Popen”检查成功和错误
- Cython纯python模式
- python – 如何将字符串转换为datetime.timedelta()?
- pytorch 图像中的数据预处理和批标准化实例
- python开发_dbm_键值对存储_完整_博主推荐