Heritrix1.14源码分析（3）修改配置文件order.xml加快你的抓取

发布时间：2020-12-16 06:21:28 所属栏目：百科来源：网络整理

导读：转自：http://www.jb51.cc/article/p-hhbuxvnx-vh.html Heritrix的order.xml分了很多组件，可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多，这里首先从Heritrix自身着手吧，修改order.xml的一些参数其实也可以达到这一目的. 下面就列

转自：http://www.52php.cn/article/p-hhbuxvnx-vh.html

Heritrix的order.xml分了很多组件，可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多，这里首先从Heritrix自身着手吧，修改order.xml的一些参数其实也可以达到这一目的.

下面就列出各个参数、说明和理想值

序号	配置名	理想值	说明
1	<long name="max-bytes-download">0</long>	0	最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制
2	<long name="max-document-download">0</long>	最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制
3	<long name="max-time-sec">0</long>	抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制
4	<integer name="max-toe-threads">3</integer>	50	抓取的线程数,表示有多少个线程去抓取,一般50足够了
5	<float name="delay-factor">4.0</float>	1.0	如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值
6	<integer name="max-delay-ms">20000</integer>	2000	队列的最大延迟时间,单位为毫秒
7	<integer name="min-delay-ms">2000</integer>	队列的最小延迟时间,0); border-top-width:1px; border-right-width:1px; border-bottom-width:1px; border-left-width:1px; border-top-style:solid; border-right-style:solid; border-bottom-style:solid; border-left-style:solid"> 8	<integer name="max-retries">30</integer>	URL抓取失败可以重试的次数，重试次数越少越好
9	<integer name="total-bandwidth-usage-KB-sec">0</integer>	总的抓取速度(KB/秒)限制,0); border-top-width:1px; border-right-width:1px; border-bottom-width:1px; border-left-width:1px; border-top-style:solid; border-right-style:solid; border-bottom-style:solid; border-left-style:solid"> 10	<integer name="max-per-host-bandwidth-usage-KB-sec">0</integer>	每个域名抓取速度(KB/S)限制，0表示没有限制
11	<integer name="target-ready-backlog">50</integer>	200	准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取
12	<integer name="ip-validity-duration-seconds">21600</integer>	DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS
13	<integer name="robot-validity-duration-seconds">86400</integer>	爬虫协议(robots.txt)有效时间，超过这个时间则要重新去读取robots.txt

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Heritrix1.14源码分析（3） 修改配置文件order.xml加快你的抓取

Heritrix1.14源码分析（3）修改配置文件order.xml加快你的抓取