Python使用scrapy采集数据时为每个请求随机分配user-agent的方法
发布时间:2020-12-16 19:58:19 所属栏目:Python 来源:网络整理
导读:本篇章节讲解Python使用scrapy采集数据时为每个请求随机分配user-agent的方法。供大家参考研究。具体分析如下: 通过这个方法可以每次请求更换不同的user-agent,防止网站根据user-agent屏蔽scrapy的蜘蛛 首先将下面的代码添加到settings.py文件,替
本篇章节讲解Python使用scrapy采集数据时为每个请求随机分配user-agent的方法。分享给大家供大家参考。具体分析如下: 通过这个方法可以每次请求更换不同的user-agent,防止网站根据user-agent屏蔽scrapy的蜘蛛 首先将下面的代码添加到settings.py文件,替换默认的user-agent处理模块 复制代码 代码如下: DOWNLOADER_MIDDLEWARES = { 'scraper.random_user_agent.RandomUserAgentMiddleware': 400, 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None, } 自定义useragent处理模块 复制代码 代码如下: from scraper.settings import USER_AGENT_LIST
import random from scrapy import log class RandomUserAgentMiddleware(object): def process_request(self,request,spider): ua = random.choice(USER_AGENT_LIST) if ua: request.headers.setdefault('User-Agent',ua) #log.msg('>>>> UA %s'%request.headers) 希望本文所述对大家的Python程序设计有所帮助。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |