ajax – Googlebot如何知道网络服务器在请求`？_escaped_fragmen

发布时间：2020-12-16 02:47:01 所属栏目：百科来源：网络整理

导读：关于Google的 AJAX抓取规范,如果服务器为#返回一件事(即一个 JavaScript密集的文件)！ URL#和其他东西(即页面的“html快照”)到Googlebot的时候#！被替换为？_escaped_fragment_ =,这感觉就像隐藏在我身上.毕竟,Googlebot如何确保服务器正在返回#！和？_esca

关于Google的 AJAX抓取规范,如果服务器为#返回一件事(即一个 JavaScript密集的文件)！ URL#和其他东西(即页面的“html快照”)到Googlebot的时候#！被替换为？_escaped_fragment_ =,这感觉就像隐藏在我身上.毕竟,Googlebot如何确保服务器正在返回#！和？_escaped_fragment_ =网址.然而,这就是AJAX抓取规范实际上告诉网站管理员要做的事情.我错过了什么吗？ Googlebot如何确保服务器在两种情况下都返回相同的内容？

解决方法

爬虫不知道.但它甚至都不知道那些返回普通ol’html的网站 – 根据抓取工具或已知IP头使用的http标头编写隐藏网站的代码非常容易.

请参阅此相关问题：How does Google Know you are Cloaking?

大多数似乎都是猜想,但似乎有各种各样的检查,在欺骗普通浏览器标题和实际真人看页面之间有所不同.

继续猜测,谷歌程序员的能力肯定不会超出谷歌编写一种实际检索用户看到的爬虫形式的能力 – 毕竟,他们有自己的浏览器可以做到这一点.这样做会非常昂贵地耗费CPU,但对于偶尔的抽查可能是有意义的.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!