加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Perl 未完工的爬虫

发布时间:2020-12-16 00:01:19 所属栏目:大数据 来源:网络整理
导读:根据实际的逻辑,综合了各家所长,我决定手工测试下,是否能够写出满意的爬虫. 对此还是写出来看看,一边写一边思考,今天写了一点,等回家继续想想. 根据逻辑思考,我觉得应该使用队列,和BS算法做基础,还要做链接索引. 其中最难的莫过于链接索引了,这个东西还是得

根据实际的逻辑,综合了各家所长,我决定手工测试下,是否能够写出满意的爬虫.

对此还是写出来看看,一边写一边思考,今天写了一点,等回家继续想想.

根据逻辑思考,我觉得应该使用队列,和BS算法做基础,还要做链接索引.

其中最难的莫过于链接索引了,这个东西还是得思考下的.现在还没想好,等等再看吧.

#!/usr/bin/perl
use LWP::Simple; use HTML::LinkExtor; use threads; use threads::shared; use Thread::Queue; use Thread::Semaphore; use Bloom::Filter; $base_url="http://bbs.chinaunix.com/"; $html = get($base_url); $link_extor = HTML::LinkExtor->new(&;handle_links); $link_extor->parse($html); sub handle_links { ($tag,%links) = @_; if ($tag eq 'a') { foreach $key (keys %links) { if ($key eq 'href') { if($links{$key} =~m#^(http|https)://#){
                        if($links{$key}=~m#^$base_url#){
                                print "$links{$key}n"; } }else{ print $base_url.$links{$key}."n"; } } } } }

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读