如何简单高效地部署和监控分布式爬虫项目?菜鸟来教你!
发布时间:2020-12-17 00:34:48 所属栏目:Python 来源:网络整理
导读:初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控制爬虫,感觉? 命令行操作太麻烦 ?,希望能够通过浏览器直接部署和运行项目 专业用户: 有 N 台云主机,通过 Scrapy-Redis 构建分布式爬虫
初级用户:
专业用户:
安装和配置
ENABLE_AUTH = True USERNAME = 'username' PASSWORD = 'password'
SCRAPYD_SERVERS = [ '127.0.0.1',# 'username:password@localhost:6801#group',('username','password','localhost','6801','group'),]
访问 Web UI 进群:548377875 即可获取小菜鸟精心准备的PDF以及教程全套呢! 通过浏览器访问 http://127.0.0.1:5000 ,输入认证信息登录
部署项目
运行爬虫
日志分析和可视化
邮件通知
SMTP_SERVER = 'smtp.qq.com' SMTP_PORT = 465 SMTP_OVER_SSL = True SMTP_CONNECTION_TIMEOUT = 10 FROM_ADDR = 'username@qq.com' EMAIL_PASSWORD = 'password' TO_ADDRS = ['username@qq.com']
EMAIL_WORKING_DAYS = [1,2,3,4,5] EMAIL_WORKING_HOURS = [9,12,17] ON_JOB_RUNNING_INTERVAL = 3600 ON_JOB_FINISHED = True
LOG_CRITICAL_THRESHOLD = 3 LOG_CRITICAL_TRIGGER_STOP = True LOG_CRITICAL_TRIGGER_FORCESTOP = False ... LOG_IGNORE_TRIGGER_FORCESTOP = False (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容