加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > C语言 > 正文

SEO:如何正确识别百度蜘蛛,且看官方说法

发布时间:2020-12-15 03:27:56 所属栏目:C语言 来源:网络整理
导读:《SEO:如何正确识别百度蜘蛛,且看官方说法》要点: 本文介绍了SEO:如何正确识别百度蜘蛛,且看官方说法,希望对您有用。如果有疑问,可以联系我们。 这篇文章来自百度官网。 经常听到站长们问,百度蜘蛛是什么? 最近百度蜘蛛来的太频繁服务器抓爆了,最

《SEO:如何正确识别百度蜘蛛,且看官方说法》要点:
本文介绍了SEO:如何正确识别百度蜘蛛,且看官方说法,希望对您有用。如果有疑问,可以联系我们。

这篇文章来自百度官网。


经常听到站长们问,百度蜘蛛是什么?

最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办?

还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布。


那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛。

1、查看UA:其中最主要的关键字是Baiduspider

如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML,like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

2、反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1)、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2)、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。


3)、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。


附:下面是一个php函数,内含较为完整的蜘蛛类型判断。参数是UA。

/** 共源:http://www.52php.cn
 *    判断是否为搜索引擎蜘蛛,返回蜘蛛类型
 *    @return    false/蜘蛛类型
 */
function spider($userAgent='')
{
       $agent= empty($userAgent) ? strtolower($_SERVER['HTTP_USER_AGENT']) : strtolower($userAgent);
       if (empty($agent)) return false;
#Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
       $spiderSite= array(
              "Googlebot" => "谷歌",              "Google AdSense" => "谷歌AdSense",              "Baiduspider+" => "百度",              "BaiduGame" => "百度",              "BaiDuSpider" => "百度",              "YisouSpider" => '神马',              "Sogou Spider" => "搜狗",              'Sogou web'=>'搜狗',              "msnbot" => "MSN",              'bingbot' =>'必应',              '360spider'=>'好搜',              'HaoSouSpider'=>'好搜',              "Sosospider+" => "SOSO",              "Yahoo! Slurp" => "雅虎",              "Yahoo Slurp" => "雅虎",              'YandexBot' =>'YandexBot',              "TencentTraveler" => "腾讯",              "YoudaoBot" => "有道",              "ia_archiver" => "Alex",              "MSNBot" => "MSN",              "Ask" => "Ask",              'linkdexbot'=>'linkdex',              "Speedy Spider" => "Speedy Spider",              "Java (Often spam bot)" => "Java (Often spam bot)",              "Voila" => "Voila",              "Yandex bot" => "Yandex bot",              "BSpider" => "BSpider",              "twiceler" => "twiceler",              "Heritrix" => "Heritrix",              "Python-urllib" => "Python-urllib",              "Alexa (IA Archiver)" => "Alexa (IA Archiver)",              "Exabot" => "Exabot",              "Custo" => "Custo",              "OutfoxBot/YodaoBot" => "OutfoxBot/YodaoBot",              "yacy" => "yacy",              "SurveyBot" => "SurveyBot",              "legs" => "legs",              "lwp-trivial" => "lwp-trivial",              "Nutch" => "Nutch",              "StackRambler" => "StackRambler",              "The web archive (IA Archiver)" => "The web archive (IA Archiver)",              "Perl tool" => "Perl tool",              "MJ12bot" => "MJ12bot",              "Netcraft" => "Netcraft",              "MSIECrawler" => "MSIECrawler",              "WGet tools" => "WGet tools",              "larbin" => "larbin",              "Fish search" => "Fish search",       );
       foreach($spiderSite as $spider => $spiderName) {
              $str = strtolower($spider);
              if (stripos($agent, $str) !== false) {
                     return $spiderName;
              }
       }
       return false;

}

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读