序号 |
配置名 |
理想值 |
说明 |
1 |
<long name="max-bytes-download">0</long> |
0 |
最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制 |
2 |
<long name="max-document-download">0</long> |
最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制 |
3 |
<long name="max-time-sec">0</long> |
抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制 |
4 |
<integer name="max-toe-threads">3</integer> |
50 |
抓取的线程数,表示有多少个线程去抓取,一般50足够了 |
5 |
<float name="delay-factor">4.0</float> |
1.0 |
如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值 |
6 |
<integer name="max-delay-ms">20000</integer> |
2000 |
队列的最大延迟时间,单位为毫秒 |
7 |
<integer name="min-delay-ms">2000</integer> |
队列的最小延迟时间,0); border-top-width:1px; border-right-width:1px; border-bottom-width:1px; border-left-width:1px; border-top-style:solid; border-right-style:solid; border-bottom-style:solid; border-left-style:solid"> 8 |
<integer name="max-retries">30</integer> |
URL抓取失败可以重试的次数,重试次数越少越好 |
9 |
<integer name="total-bandwidth-usage-KB-sec">0</integer> |
总的 抓取速度(KB/秒)限制,0); border-top-width:1px; border-right-width:1px; border-bottom-width:1px; border-left-width:1px; border-top-style:solid; border-right-style:solid; border-bottom-style:solid; border-left-style:solid"> 10 |
<integer name="max-per-host-bandwidth-usage-KB-sec">0</integer> |
每个域名抓取速度(KB/S)限制,0表示没有限制 |
11 |
<integer name="target-ready-backlog">50</integer> |
200 |
准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取 |
12 |
<integer name="ip-validity-duration-seconds">21600</integer> |
DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS |
13 |
<integer name="robot-validity-duration-seconds">86400</integer> |
爬虫协议(robots.txt)有效时间,超过这个时间则要重新去读取robots.txt |