正则表达式

发布时间：2020-12-13 22:59:48 所属栏目：百科来源：网络整理

导读：1、什么是正则表达式字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等等字符串是0个或更多个字符的序列文本也就是文字，字符串说某个字符串匹配某个正则表达式，通常是指这个字符串里有一部分（或几部分分别

1、什么是正则表达式

字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等等

字符串是0个或更多个字符的序列

文本也就是文字，字符串

说某个字符串匹配某个正则表达式，通常是指这个字符串里有一部分（或几部分分别）能满足表达式给出的条件

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要

正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码

2、入门

b是正则表达式规定的一个特殊代码(元字符,metacharacter)，代表着单词的开头或结尾，也就是单词的分界处

虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置

如果需要更精确的说法,b匹配这样的位置：它的前一个字符和后一个字符不全是(一个是,一个不是或不存在)w

"."另一个元字符，匹配除了换行符以外的任意字

"*"同样是元字符，不过它代表的不是字符，也不是位置，而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配

因此,*连在一起就意味着任意数量的不包含换行的字符

如果同时使用其它元字符，我们就能构造出功能更强大的正则表达式

3、元字符

现在你已经知道几个很有用的元字符了，如b,.,*，还有d.正则表达式里还有更多的元字符

比如s匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。w匹配字母或数字或下划线或汉字等

对中文/汉字的特殊处理是由.Net提供的正则表达式引擎支持的，其它环境下的具体情况请查看相关文档。

4、常用元字符

匹配换行符以外的任意字符

匹配字母或数字或下划线或汉字

匹配任意的空白符

匹配数字

匹配单词的开始或结束

匹配字符串的开始

匹配字符串的结束

5、字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此，你应该使用.和*。当然，要查找本身，你也得用.

6、重复(常用的限定符)

重复零次或更多次

重复一次或更多次

？

重复一次或零次

{n}

重复n次

{n,}

重复n次或更多次

{n,m}

重复n到m次

7、字符类

要想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集合的元字符，但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办？

很简单，你只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)。

我们也可以轻松地指定一个字符范围，像[0-9]代表的含意与d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于w（如果只考虑英文的话）

8、分枝条件

正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开5位数字，或者用连字号间隔的9位数字

之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序

9、分组

我们已经提到了怎么重复单个字符（直接在字符后面加上限定符就行了）

重复多个字符可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了，你也可以对子表达式进行其它一些操作

10、反义

有时需要查找不属于某个能简单定义的字符类的字符

比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义

11、常用的反义代码

匹配任意不是字母，数字，下划线，汉字的字符
S
匹配任意不是空白符的字符
D
匹配任意非数字的字符
B
匹配不是单词开头或结束的位置
[^x]
匹配除了x以外的任意字符
[^aeiou]
匹配除了aeiou这几个字母以外的任意字符
匹配exp,并捕获文本到自动命名的组里
(?<name>exp)
匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
(?:exp)
匹配exp,不捕获匹配的文本，也不给此分组分配组号 (?:exp)不会改变正则表达式的处理方式，只是这样的组匹配的内容不会像前两种那样被捕获到某个组里面，也不会拥有组号
匹配exp前面的位置
(?<=exp)
匹配exp后面的位置
(?!exp)
匹配后面跟的不是exp的位置
(?<!exp)
匹配前面不是exp的位置
这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读
      <(w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
      )       # 前缀结束
      .*      # 匹配任意文本
      (?=     # 断言要匹配的文本的后缀
      </1>  # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
      )       # 后缀结束
重复任意次，但尽可能少重复
+?
重复1次或更多次，但尽可能少重复
??
重复0次或1次，但尽可能少重复
{n,m}?
重复n到m次，但尽可能少重复
{n,}?
重复n次以上，但尽可能少重复
匹配时不区分大小写。
Multiline(多行模式)
更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配n之前的位置以及字符串结束前的位置.)
Singleline(单行模式)
更改.的含义，使它与每一个字符匹配（包括换行符n）。
IgnorePatternWhitespace(忽略空白)
忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获)
仅捕获已被显式命名的组。
报警字符(打印它的效果是电脑嘀一声)
b
通常是单词分界位置，但如果在字符类里使用代表退格
t
制表符，Tab
r
回车
v
竖向制表符
f
换页符
n
换行符
e
Escape
nn
ASCII代码中八进制代码为nn的字符
xnn
ASCII代码中十六进制代码为nn的字符
unnnn
Unicode代码中十六进制代码为nnnn的字符
cN
ASCII控制字符。比如cC代表Ctrl+C
A
字符串开头(类似^，但不受处理多行选项的影响)
Z
字符串结尾或行尾(不受处理多行选项的影响)
z
字符串结尾(类似$，但不受处理多行选项的影响)
G
当前搜索的开头
p{name}
Unicode中命名为name的字符类，例如p{IsGreek}
(?>exp)
贪婪子表达式
(?<x>-<y>exp)
平衡组
(?im-nsx:exp)
在子表达式exp中改变处理选项
(?im-nsx)
为表达式后面的部分改变处理选项
(?(exp)yes|no)
把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no
(?(exp)yes)
同上，只是使用空表达式作为no
(?(name)yes|no)
如果命名为name的组捕获到了内容，使用yes作为表达式；否则使用no
(?(name)yes)
同上，只是使用空表达式作为no

例子：S+匹配不包含空白符的字符串

<a[^>]+>匹配用尖括号括起来的以a开头的字符串

12、后向引用

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理

默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推

分组0对应整个正则表达式

实际上组号分配过程是要从左向右扫描两遍的：第一遍只给未命名组分配，第二遍只给命名组分配－－因此所有命名组的组号都大于未命名的组号

你可以使用这样的语法来剥夺一个分组对组号分配的参与权

后向引用用于重复搜索前面某个分组匹配的文本

你也可以自己指定子表达式的组名

要指定一个子表达式的组名，请使用这样的语法：(?<Word>w+)(或者把尖括号换成'也行：(?'Word'w+))

这样就把w+的组名指定为Word了

要反向引用这个分组捕获的内容，你可以使用k<Word>,所以上一个例子也可以写成这样：b(?<Word>w+)bs+k<Word>b。

使用小括号的时候，还有很多特定用途的语法

13、常用分组语法

捕获

(exp)

零宽断言：用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言

(?=exp)

负向零宽断言
它只匹配一个位置，并不消费任何字符

注释

(?#comment)

小括号的另一种用途是通过语法(?#comment)来包含注释

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加空格，Tab，换行，而实际使用时这些都将被忽略

启用这个选项后，在#后面到这一行结束的所有文本都将被当成注释忽略掉。例如，我们可以前面的一个表达式写成这样：

      (?<=    # 断言要匹配的文本的前缀

14、贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符

以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：最先开始的匹配拥有最高的优先权——The match that begins earliest wins。

15、懒惰限定符

*?

16、处理选项

.Net中常用的正则表达式选项：

IgnoreCase(忽略大小写)

17、平衡组/递归匹配

这里介绍的平衡组语法是由.Net Framework支持的；其它语言／库不一定支持这种功能，或者支持此功能但需要使用不同的语法

这里需要用到以下的语法构造：

(?'group') 把捕获的内容命名为group,并压入堆栈(Stack)

(?'-group') 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败

(?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分

(?!) 零宽负向先行断言，由于没有后缀表达式，试图匹配总是失败

我们需要做的是每碰到了左括号，就在压入一个"Open",每碰到一个右括号，就弹出一个，到了最后就看看堆栈是否为空－－如果不为空那就证明左括号比右括号多，那匹配就应该失败

正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符)，尽量使整个表达式得到匹配

平衡组的一个最常见的应用就是匹配HTM

18、一些常用语法

a
报警字符(打印它的效果是电脑嘀一声)
b
通常是单词分界位置，但如果在字符类里使用代表退格
t
制表符，Tab
r
回车
v
竖向制表符
f
换页符
n
换行符
e
Escape
nn
ASCII代码中八进制代码为nn的字符
xnn
ASCII代码中十六进制代码为nn的字符
unnnn
Unicode代码中十六进制代码为nnnn的字符
cN
ASCII控制字符。比如cC代表Ctrl+C
A
字符串开头(类似^，但不受处理多行选项的影响)
Z
字符串结尾或行尾(不受处理多行选项的影响)
z
字符串结尾(类似$，但不受处理多行选项的影响)
G
当前搜索的开头
p{name}
Unicode中命名为name的字符类，例如p{IsGreek}
(?>exp)
贪婪子表达式
(?<x>-<y>exp)
平衡组
(?im-nsx:exp)
在子表达式exp中改变处理选项
(?im-nsx)
为表达式后面的部分改变处理选项
(?(exp)yes|no)
把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no
(?(exp)yes)
同上，只是使用空表达式作为no
(?(name)yes|no)
如果命名为name的组捕获到了内容，使用yes作为表达式；否则使用no
(?(name)yes)
同上，只是使用空表达式作为no

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!