加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

网页抓取工具 – 如何设置一个仅允许站点默认页面的robot.txt

发布时间:2020-12-14 22:26:50 所属栏目:资源 来源:网络整理
导读:说我有一个网站在 http://example.com.我真的希望允许机器人看到主页,但任何其他页面需要阻止,因为它是无意义的蜘蛛。换一种说法 http://example.com应该允许http://example.com/,但是 http://example.com/anything和http://example.com/someendpoint.asp
说我有一个网站在 http://example.com.我真的希望允许机器人看到主页,但任何其他页面需要阻止,因为它是无意义的蜘蛛。换一种说法

http://example.com&应该允许http://example.com/,但是
http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。

此外,如果我允许某些查询字符串传递到主页,那将是很好的
http://example.com?okparam=true

但不是
http://example.com?anythingbutokparam=true

解决方法

所以经过一些研究,这里是我发现的 – 主要搜索提供商可以接受的解决方案: google, yahoo& msn(我可以在这里找到一个验证器):
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

诀窍是使用$来标记URL的结尾。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读