正则表达式匹配url的一种思路

发布时间：2020-12-14 01:24:08 所属栏目：百科来源：网络整理

导读：背景是是搜集一类网站的url。可以在几个网站中找到相关链接。一个个打开复制太麻烦，于是就考虑在源代码中提取出其中的url。于是将页面源代码保存到url.txt文件中后，通过如下脚本通过正则表达式过滤出其中的url。 #! /usr/bin/perluse warnings;@strs=`cat

背景是是搜集一类网站的url。可以在几个网站中找到相关链接。一个个打开复制太麻烦，于是就考虑在源代码中提取出其中的url。

于是将页面源代码保存到url.txt文件中后，通过如下脚本通过正则表达式过滤出其中的url。

#! /usr/bin/perl
use warnings;
@strs=`cat ./url.txt`;
foreach (@strs){
	if(/(https?.*?.(:?cnb|comb|netb|orgb|govb)(?!.))/)
		{print "$1n";}
}

通过观察，页面源码中的url都含有一下特点。

1.http或者https开头。（这个特别棒，省了不少事）

2.中间是一段任意字符串

3.结尾处是知名的顶级域

然后写出正则表达式如下

(https?.*?.(:?cnb|comb|netb|orgb|govb)(?!.))

详细解释下：

http：先是匹配http

s? ：可有可无的s

.*? ：以非贪婪的模式匹配任意长度的任意字符。 “.''表示任意字符，” *？“表示非贪婪模式匹配任意长度。如果使用贪婪模式，会出现很多意外情况。

. ：匹配点符号，因为"."在正则中表示任意字符，所以想要匹配”."本身需要用”“进行转义

(:? ) ：其实就是简单的括号，改变下优先级，加上”：？“ 是以为perl中会将（）内的匹配到的字符串存储到相应变量中，而加上（：？）则不会储存。

cnb|comb ：匹配不在字符串中间的cn或者com。之后的net，org，gov也都一样。

（?!.）：这是个零宽断言，就是说前面的cn，com字符串后面没有点。这是为了避免www.ujn.edu.cn这样的，只匹配出www.ujn.edu，丢掉后面的cn。

网上有跟多匹配各种类型的url的表达式，小弟才疏学浅，大部分都看不懂，自己写个简简单单的，符合自己要求的随便用用，需要的拿去。求别喷。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!