加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

使用perl WWW :: Mechanize处理404和内部服务器错误

发布时间:2020-12-15 23:22:12 所属栏目:大数据 来源:网络整理
导读:我正在使用WWW :: Mechanize来抓取网站,它的效果很好,除非有时会出现返回错误代码404或500(未找到或内部服务器错误)的页面,然后我的脚本将退出并停止运行.这真的搞乱了我的数据收集,所以无论如何WWW :: Mechanize会让我抓住这些错误,看看返回了什么样的错误
我正在使用WWW :: Mechanize来抓取网站,它的效果很好,除非有时会出现返回错误代码404或500(未找到或内部服务器错误)的页面,然后我的脚本将退出并停止运行.这真的搞乱了我的数据收集,所以无论如何WWW :: Mechanize会让我抓住这些错误,看看返回了什么样的错误代码(即404,500等).谢谢您的帮助!

解决方法

你需要禁用autocheck:

my $mech = WWW::Mechanize->new( autocheck => 0 );

$mech->get("http://somedomain.com");

if ( $mech->success() ) {
    ...
}
else {
    print "status is: " . $mech->status;
}

另外,在测试机器脚本时,请查看WWW::Mechanize::Cached::GZip和WWW::Mechanize::Cached以加快开发速度.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读