正则表达式

发布时间：2020-12-13 19:34:04 所属栏目：百科来源：网络整理

导读：推荐大家一个正则表达式速成网址：http://deerchao.net/tutorials/regex/regex.htm 下面是我的学习笔记在网页抓取中，我们经常需要分析html内容，而其内容庞大，节点多，如何高效识别呢？推荐大家使用正组表达式：（1）常用元字符常用的元字符代码说明

推荐大家一个正则表达式速成网址：http://deerchao.net/tutorials/regex/regex.htm

下面是我的学习笔记

在网页抓取中，我们经常需要分析html内容，而其内容庞大，节点多，如何高效识别呢？推荐大家使用正组表达式：

（1）常用元字符

常用的元字符

代码说明
. 匹配除换行符以外的任意字符
w 匹配字母或数字或下划线或汉字
s 匹配任意的空白符
d 匹配数字
b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

下面例子源文件

hello world
583930459
480558839@qq.com
jfdkfjaif@gmail.com
jkdjfsj@qq.com
232324qq.com
34343434qq@.com
<html>
<body>
hello world
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">google</a>
</html>
https://www.sina.com
ftp://mit.edu.us
http://www.hello.cn
pic1.jpg
pic2.png
pic3.gif
23.43.2.23
192.168.1.2
333.33.33.3
192.12.1234.2
342.23.45.5
23.23.3.4.3
256.255.255.255
255.255.255.255
0.0.0.0
234.255.256.2
bye bye
sbsb
dancing
going
beinghere coming here

（1）例如：查找qq邮箱

public class Main {
	
	static String regex = "d{5,12}@qq.com";
	static Pattern pattern = Pattern.compile(regex);
	
	public static void main(String[] args) throws Exception {
		FileInputStream fin = new FileInputStream(new File("data"));
		BufferedReader br = new BufferedReader(new InputStreamReader(fin));
		String line = "";
		while((line=br.readLine()) != null){
			process(line);
		}
	}
	
	static void process(String line){
		Matcher matcher = pattern.matcher(line);
		if(matcher.find()){
			System.out.println(matcher.group(0));
		}
	}
		
}

结果如下：（随便打的qq号，如有雷同，纯属巧合）

480558839@qq.com

例2：以某个字符开头的

regex = "^he.*";

或者以某个字符结尾

String regex = ".*com$";

（2）常用的限定符

代码/语法说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

这种次数的限制非常有用

（3）分支

可是，我们经常会遇到多种可能的字符，这时候就需要用到分支条件

例如我们要找出所有图片，可是图片格式多种，有jpg,bmp,png,gif等等，我们应该使用分支条件，就是给出多种可能

可以是使用

regex = "w*.(jpg|png|gif|bmp)";

找出

NickGirl.jpg
pic1.jpg
pic2.png
pic3.gif

（4）分组

经常我们需要局部操作，例如某个组合会出现多次，而前面的几种方法似乎都是针对单字符次数的操作，这里可以采用分组操作：

就是用()前面也有用到一些，比如我们想找Ip地址我们知道他们都是符合同一个规律的

static String regex = "^(((d)|(1?d{2})|(2(([0-4]d)|(5[0-5])))).){3}(((d)|(1?d{2})|(2(([0-4]d)|(5[0-5])))))$";

我表示写完之后自己都糊涂了。。。

23.43.2.23
192.168.1.2
255.255.255.255
0.0.0.0

稍微解释下把：

首先ip可能是1位 2位 3位 1位和2位的时候对数字大小没有限制，所以没问题，可是三位的时候1XX还好，对XX也没限制，可是2XX就有限制了，2【0-4】X这种X是无限制，25【0-5】这就是分支，其实就是分类啦

(1)所以前面1位写成： (d)

(2)2位和1XX合并：(1?d{2})

(3)三位 2[0-4]X : (2[0-4]d)

(4)三位25[0-5] : (25[0-5])

把(3)(4)合并： (2(([0-4]d)|(5[0-5])))

然后在和（1）（2）合并就可以了，最后加上点. 记得转义字符

结果就出来了

（5）反义字符

常用的反义代码
代码/语法说明
W 匹配任意不是字母，数字，下划线，汉字的字符
S 匹配任意不是空白符的字符
D 匹配任意非数字的字符
B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

比如说，找出所有标签

static String regex = "<[^>]*>";

这里就是找出<>这种格式的东西

<html>
<body>
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">
</html>

（6）后向引用

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

如果想要找重复的，可以利用后向应用，例如找bye bye这种类型的

String regex = "(w+)s1";

或者网页标签往往我们想找一个完整的<a></a>

这种引用方式就能够准确进行匹配

static String regex = "<([a-zA-Z]+).*[^>]>.*[^<]</1>";

仅仅输出这种模式配的上的：

<a href="http://www.google.com">google</a>

（7）贪婪与懒惰匹配

懒惰限定符
代码/语法说明
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

这个也是我们在网页查找标签中经常用到的例如想找出与<匹配的第一个>如果我们使用

static String regex = "<.+>";

默认下会贪婪匹配得到：

<html>
<body>
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">google</a>
</html>

那个<a>标签似乎不是我们想要的

static String regex = "<.+?>";

用这句

<html>
<body>
<img src="/NickGirl.jpg" alt="meinv"/>
<script src="/virus.js"/>
</body>
<a href="http://www.google.com">
</html>

就是我们需要的啦

（8）正则表达式的选项

常用的处理选项名称说明 IgnoreCase(忽略大小写)匹配时不区分大小写。 Multiline(多行模式)更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配n之前的位置以及字符串结束前的位置.) Singleline(单行模式)更改.的含义，使它与每一个字符匹配（包括换行符n）。 IgnorePatternWhitespace(忽略空白)忽略表达式中的非转义空白并启用由#标记的注释。 ExplicitCapture(显式捕获)仅捕获已被显式命名的组。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!