加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

任何人都有任何C#代码来解析robots.txt并对其进行评估

发布时间:2020-12-15 04:08:25 所属栏目:百科 来源:网络整理
导读:简短的问题: 有没有人有任何C#代码来解析robots.txt,然后针对它评估URLS,所以看看它们是否会被排除. 长问题: 我一直在为一个尚未发布到谷歌的新网站创建一个站点地图.站点地图有两种模式,一种是用户模式(如传统的站点地图)和一种“管理”模式. 管理员模式
简短的问题:

有没有人有任何C#代码来解析robots.txt,然后针对它评估URLS,所以看看它们是否会被排除.

长问题:

我一直在为一个尚未发布到谷歌的新网站创建一个站点地图.站点地图有两种模式,一种是用户模式(如传统的站点地图)和一种“管理”模式.

管理员模式将显示网站上所有可能的URL,包括特定外部合作伙伴的自定义条目URL或URL,例如example.com/oprah,适用于在Oprah上查看我们网站的任何人.我想跟踪Excel电子表格以外的其他地方发布的链接.

我不得不假设有人可能会在他们的博客或某个地方发布/ oprah链接.我们实际上并不希望将这个“迷你oprah网站”编入索引,因为这会导致非oprah观众能够找到特殊的Oprah优惠.

所以在我创建站点地图的同时,我还添加了诸如/ oprah之类的URL,以便从我们的robots.txt文件中排除.

然后(这是实际问题)我认为“能够在站点地图上显示文件是否被索引并且对机器人可见”不是很好.这很简单 – 只需解析robots.txt然后评估一个链接.

然而,这是一个“奖励功能”,我当然没有时间去写它(甚至认为它可能不那么复杂) – 所以我想知道是否有人已经编写任何代码来解析robots.txt?

解决方法

讨厌说,但只是谷歌“C#robots.txt解析器”,然后点击第一个命中.它是一个 CodeProject article about a simple search engine implemented in C# called “Searcharoo”,它包含一个类Searcharoo.Indexer.RobotsTxt,描述为:
  1. Check for,and if present,download and parse the robots.txt file on the site
  2. Provide an interface for the Spider to check each Url against the robots.txt rules

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读