加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式入门

发布时间:2020-12-13 22:07:37 所属栏目:百科 来源:网络整理
导读:本文是根据大神的文章做的笔记,原文点这里 metacharacter(元字符): b : 匹配一个位置(单词的开始或结束) 如:bhib会精确的匹配到hi这个单词 . : 匹配除换行符以为的任意字符 * : 代表数量,指定前边的内容可以连续重复使用任意次以使整个表达式得到匹

本文是根据大神的文章做的笔记,原文点这里

metacharacter(元字符):

b : 匹配一个位置(单词的开始或结束) 如:bhib会精确的匹配到hi这个单词
. : 匹配除换行符以为的任意字符
* : 代表数量,指定前边的内容可以连续重复使用任意次以使整个表达式得到匹配 如:bhib.*bLucyb意思是先一个单词hi然后是任意个字符(但是不能是换行),最后是Lucy这个单词
d : 匹配一位数字(0或1或2...)如 :0ddd-dddddddd意思是0开头,然后是2个数字,然后是一个连字符“-”,最后是8个数字。也可以这样写0d{2}-d{8}这里{2}{8}的意思是前边的d必须连续匹配2次(8次)
s : 匹配任意空白符,包括空格,制表,换行,中文全角空格等
w : 匹配字母或数字或下划线或汉字等。
栗子:baw*b意思是,以字母a开头的单词----显示某个单词开始处(b),然后是字母a,然后是任意数量的字母或数字(w*),最后是单词结束处(b)
正则表达式里边的一个单词:就是不少于一个连续的w
+ : 表示数量,类似*,但是+代表前边的内容重复1次或多次,*是0次或多次 如:d+匹配一个或更多连续的数字;bw{6}b匹配刚好6个字符的单词
^ : 匹配字符串的开始
$ : 匹配字符串的结束
^和$都匹配一个位置,这与b类似。^用来匹配你要查找的字符串的开头,$匹配结尾。如:^d{5,12}$匹配5到12位数字({5,12}代表匹配次数不能少于5不能多于12)

数量限定符:
* : 重复0次或更多次
+ : 重复1次或更多次
? : 重复0次或1次
{n}: 重复次
{n,}: 重复n次或更多次
{n,m}: 重复不少于n次不多于m次

转义字符:
: 如果你想查找元字符本身或者本身就给使用"",如:.和*和

字符类:
[] : 匹配“[]”内列出的任何一个元素,如: [aeiou]匹配aeiou中的任何一个;[.?!]匹配匹配标点符号“.”或“?”或“!”;[0-9]匹配的含义与d就完全一样,都匹配一个数字

下面是一个更复杂的表达式:(?0d{2}[) -]?d{8}。
这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455, 或02912345678等。我们对它进行一些分析吧:首先是一个转义字符(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(d{2}),然后是)或-或空格中 的一个,它出现1次或不出现(?),最后是8个数字(d{8})。

“(”和“)”也是元字符,所以在这里需要使用转义。

分支条件:
分支条件指的是正则表达式中有多种规则,如果满足其中一种都应当完成匹配,具体方法是用“|”将不同的规则分隔开。(有点类似或操作符)。如:d{5}-d{4}|d{5}这个匹配美国的邮编,五位数字或者连字号隔开的9位数字。很简单但是要注意: 条件的顺序也是很重要的,如果改成d{5}|d{4}-d{5}那么只会匹配五位的邮编和九位邮编的前五位。也就是分支条件将会从左到右测试每个条件,如果满足了某个分支就不会再管其他条件了。

反义:
有时需要查找不属于某个能简单定义的字符类的字符,如查找除了数字以外的其它任意字符,这时就要用到反义了。
W : 匹配任意不是字母,数字,下划线,汉子的字符
S : 匹配任意不是空白的字符
D : 匹配任意非数字的字符
B : 匹配不是单词开头或结束的位置
[^x]: 匹配除了x以外的任意字符
[^aeiou]: 匹配除了aeiou以外的任意字符

分组:
单个字符的重复直接加上限定符就可以实现,但是想重复多个字符又该怎么办?可以直接用小括号指定子表达式,然后就可以对这个子表达式添加限定符了。如:(d{1,3}.){3}d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:d{1,3}匹 配1到3位的数字,(d{1,3}.){3}匹 配三位数字加上一个英文句号(这个整体也就是这个分组)重 复3次,最后再加上一个一到三位的数字(d{1,3})。但是这个正则会匹配256.300.888.999这种错误的ip,所以改进如下:((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)

向后引用:没写的同样的很重要,只是没必要原样copy过来,看这里

零宽断言:

负向零宽断言:

注释:

贪婪与懒惰:

懒惰限定符:
*? : 重复任意次但尽可能少重复
+? : 重复1次或多次,尽量少重复
?? : 重复0次或1次,尽量少重复
{n,m}? : 重复不少于n次不多于m次,尽量少重复
{n,}? : 重复n次以上,尽量少重复

在线编辑器: http://www.regexpal.com/

原文:http://www.oschina.net/question/12_9507?fromerr=726wchYs#alternative

关于正则表达式语言元素的MSDN在线文档:https://msdn.microsoft.com/zh-cn/library/az24scfc.aspx

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读