加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

perl 处理HTML

发布时间:2020-12-16 00:13:04 所属栏目:大数据 来源:网络整理
导读:perl html Table of Contents 1 perl代码中的web处理 1.1 常用模块 1.2 基本过程 1.3 获取并解析网页 1 ?perl代码中的web处理 1.1 ?常用模块 Mojo::UserAgent WWW::Mechanize anyevent::http LWP 1.2 ?基本过程 扒站最基本的:经过一个网页,把页面上的链接

perlhtml

Table of Contents

  • 1 perl代码中的web处理
    • 1.1 常用模块
    • 1.2 基本过程
    • 1.3 获取并解析网页

1?perl代码中的web处理

1.1?常用模块

Mojo::UserAgent WWW::Mechanize anyevent::http LWP

1.2?基本过程

扒站最基本的:经过一个网页,把页面上的链接都解析出来放到一个数组里,把页面 上的表单解析出来放到一个散列里,并且hidden字段自动填好,你只需填剩下的字段。 下面,把我用到的最基本的东西总结在下面:

1.3?获取并解析网页

使用LWP::Simple模块的get方法下载网页

然后使用HTML::FormatText创建新的格式器

格式器只能处理已解析的HTML,所以我们使用HTML::TreeBuilder解析HTML

已经解析的HTML位于$treebuilder对象中,所以在这个对象上使formatter?对象的format方法,把网页的格式设置为普通文本,并输出。

 1:  use LWP::Simple;
 2:  HTML::Treebuilder;
 3:  HTML::FormatText;
 4:  
 5:  $html = get("http://www.cpan.org/");  
 6:  $formatter = HTML::FormatText->new;
 7:  $tree_builder =HTML::TreeBuilder->new;
 8:  $tree_builder->parse($html);
 9:  $text = $formatter->format($tree_builder);
10:  print $text;

上面的方法是perl技术内幕中提到的方法。

Date: 2013-05-12 16:44:00 CST

Author: gaorongchao

Org version 7.8.11 with Emacs version 24

Validate XHTML 1.0

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读