加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Perl单URL爬虫

发布时间:2020-12-16 00:01:56 所属栏目:大数据 来源:网络整理
导读:分析了下代码,之前官方那段其实很简单,只要理解了,就能随意改动了。 根据自己的想法,目前想做的是全方位爬虫,并不是类似如此简单的爬, 简单的整理了下这个单例的抓URL。效果一般般,这几天忙完事情,我就改成多线程。 把URL的深度选项加入,以及可定向

分析了下代码,之前官方那段其实很简单,只要理解了,就能随意改动了。

根据自己的想法,目前想做的是全方位爬虫,并不是类似如此简单的爬,

简单的整理了下这个单例的抓URL。效果一般般,这几天忙完事情,我就改成多线程。

把URL的深度选项加入,以及可定向操作级别。这东西是我一直在思考的东西,也是我的一个想法。

把单例的例子保存下,方便以后翻。

#!/usr/bin/perl

use LWP::UserAgent; use HTML::LinkExtor; use URI::URL; @imgs=(); test("http://www.baidu.com/s?wd=dd"); sub test{ local($url)=shift; # 创建UserAgent对象
 $ua=LWP::UserAgent->new; # 调用HTML模块来取出链接并放入数组当中
 $p = HTML::LinkExtor->new(&;callback); # 通过GET的方式下载页面(引用了UserAgent对象)
 $res = $ua->request(HTTP::Request->new(GET => $url),sub {$p->parse($_[0])}); my $base = $res->base; @imgs = map { $_ = url($_,$base)->abs; } @imgs; print join("n",@imgs),"n"; } sub callback{ my($tag,%attr)=@_; return if $tag ne 'a'; push(@imgs,values %attr); }

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读