正则表达式规则

发布时间：2020-12-13 22:21:20 所属栏目：百科来源：网络整理

导读：简单规则元字符 . 匹配除换行符以外的任意字符 w 匹配字母或数字或下划线或汉字s 匹配任意的空白符d 匹配数字b 匹配单词的开始或结束^ 匹配字符串的开始$ 匹配字符串的结束对应的大写字母表示相反的意义 W 匹配字母或数字或下划线或汉字以外的字符S

简单规则

元字符

.           匹配除换行符以外的任意字符  
w          匹配字母或数字或下划线或汉字
s          匹配任意的空白符
d          匹配数字
b          匹配单词的开始或结束
^           匹配字符串的开始
$          匹配字符串的结束

对应的大写字母表示相反的意义

W          匹配字母或数字或下划线或汉字以外的字符
S          匹配任意的非空白符
D          匹配非数字
B          匹配非单词的开始或结束

字符类

要想查找数字,字母或数字,空白是很简单的,因为已经有了对应这些字符集合的元字符,但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办? 很简单,你只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!).

分组

我们已经提到了怎么重复单个字符( 直接在字符后面加上限定符就行了 ); 但如果想要重复多个字符又该怎么办? 你可以用小括号来指定子表达式( 也叫做分组 ),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作( 后面会有介绍 ).

匹配次数

*           重复零次或者更多次
+           重复一次或者更多次
?           重复零次或者一次
{n}         重复n次
{n,}        重复n次或者更多次
{n,m}       重复n次到m次

高级规则

贪婪匹配

当正则表达式中包含能接受重复的限定符时,通常的行为是( 在使整个表达式能得到匹配的前提下 )匹配尽可能多的字符. 以这个表达式为例: a.*b,它将会匹配最长的以a开始,以b结束的字符串. 如果用它来搜索aabab的话,它会匹配整个字符串aabab. 这被称为贪婪匹配.
有时，我们更需要懒惰匹配,也就是匹配尽可能少的字符. 前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?. a.*?b会匹配最短的以a开始,以b结束的字符串. 如果把它应用于aabab的话,它会匹配aab( 第一到第三个字符 )和ab( 第四到第五个字符 ).

*?          重复任意次,但尽可能少重复
+?          重复一次或更多次,但尽可能少重复
??          重复零次或一次,但尽可能少重复
{n,m}?      重复n次到m次,}?       重复n次以上,但可能少重复

反向引用

使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理. 默认情况下,每个分组会自动拥有一个组号,规则是: 从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推.
b(w+)bs+1b 可以用来匹配重复的单词,像go go,或者kitty kitty. (w+) 将被捕获到编号为1的分组中,所以后续的1将引用这个分组.
你也可以自己指定表达式的组名. 例如: (?<word>w+) 或者 (?'word'w+),这样就把w+的组名指定为word了. 要反向引用这个分组捕获的内容,你可以使用k<word>,所以上面的例子也可以写成: b(?<word>w+)bs+k<word>b.
需要注意:

分组0对应整个正则表达式
实际上组号分配过程中是从左往右扫描两遍的: 第一遍只给未命名组分配,第二遍只给命名组分配. 因此所有命名组的组号都大于未命名组的组号
可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权

断言

(?=exp): 正向先行断言,它断言自身后面能够匹配表达式exp. 例如: bw+(?=ingb) 匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找 i am singing while you are dancing 时,它匹配 sing 和 danc.
(?!exp): 反向先行断言,它断言自身后面不能匹配表达式exp. 例如: /d{3}(?!=d) 匹配三位数字,而且这三位数字后面不能是数字
(?<=exp): 正向后行断言,它断言自身前面能够匹配表达式exp. 例如: (?<=bre)w+b 匹配以re开头的单词的后半部分(除了re以外的部分),如查找 reading a book 时,它匹配 ading.
(?<!exp): 反向后行断言,它断言自身前面不能匹配表达式exp. 例如: (?<![a-z])d{7} 匹配前面不是小写字母的七位数字

平衡组/递归

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!