加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > asp.Net > 正文

asp.net-mvc – 保护抓取工具中的网站内容

发布时间:2020-12-16 03:20:53 所属栏目:asp.Net 来源:网络整理
导读:商业网站(ASP.NET MVC)的内容经常被竞争对手抓取.这些人是程序员,他们使用复杂的方法来抓取网站,因此无法通过IP识别它们. 不幸的是,用图像替换值不是一种选择,因为网站应该仍然可以被屏幕阅读器(JAWS)读取. 我的个人想法是使用robots.txt:禁止抓取工具访问
商业网站(ASP.NET MVC)的内容经常被竞争对手抓取.这些人是程序员,他们使用复杂的方法来抓取网站,因此无法通过IP识别它们.
不幸的是,用图像替换值不是一种选择,因为网站应该仍然可以被屏幕阅读器(JAWS)读取.

我的个人想法是使用robots.txt:禁止抓取工具访问页面上的一个公共URL(这可能伪装成正常的项目详细信息链接,但对普通用户隐藏有效URL:http://example.com?itemId=1234禁止:http://example.com?itemId=123在128下).如果IP所有者进入禁止链接,则显示CAPTCHA验证.
普通用户永远不会关注这样的链接,因为它不可见,谷歌不必抓取它,因为它是虚假的.这个问题是屏幕阅读器仍然读取链接,我认为这不值得实施.

解决方法

你的想法可能适用于一些基本的爬虫,但很容易解决.他们只需要使用代理并从新IP获取每个链接.

如果您允许匿名访问您的网站,那么您永远无法完全保护您的数据.即使你设法阻止爬行者花费大量的时间和精力,他们也可以让人类用fiddler之类的东西来浏览和捕获内容.防止竞争对手看到您的数据的最佳方法是不将其置于您网站的公共部分.

强制用户登录可能会有所帮助,至少那时您可以选择抓取您网站的人并禁止他们.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读