正则表达式（二）

发布时间：2020-12-13 22:58:21 所属栏目：百科来源：网络整理

导读：本文JanGoyvaerts为RegexBuddy写的教程的译文，版权归原作者所有。在原作基础之上，添加了部分个人理解。 8.字符串开始和结束的锚定锚定和一般的正则表达式符号不同，它不匹配任何字符。相反，他们匹配的是字符之前或之后的位置。“^”匹配一行字符串第一

本文JanGoyvaerts为RegexBuddy写的教程的译文，版权归原作者所有。

在原作基础之上，添加了部分个人理解。

8.字符串开始和结束的锚定

锚定和一般的正则表达式符号不同，它不匹配任何字符。相反，他们匹配的是字符之前或之后的位置。“^”匹配一行字符串第一个字符前的位置。<<^a>>将会匹配字符串“abc”中的a。<<^b>>将不会匹配“abc”中的任何字符。

类似的，$匹配字符串中最后一个字符的后面的位置。所以<<c$>>匹配“abc”中的c。

锚定的应用

在编程语言中校验用户输入时，使用锚定是非常重要的。如果你想校验用户的输入为整数，用<<^d+$>>。

用户输入中，常常会有多余的前导空格或结束空格。你可以用<<^s*>>和<<s*$>>来匹配前导空格或结束空格。

使用“^”和“$”作为行的开始和结束锚定

如果你有一个包含了多行的字符串。例如：“firstlinenrsecond line”(其中nr表示一个新行符)。常常需要对每行分别处理而不是整个字符串。因此，几乎所有的正则表达式引擎都提供一个选项，可以扩展这两种锚定的含义。“^”可以匹配字串的开始位置(在f之前)，以及每一个新行符的后面位置(在nr和s之间)。类似的，$会匹配字串的结束位置(最后一个e之后)，以及每个新行符的前面(在e与nr之间)。

在.NET中，当你使用如下代码时，将会定义锚定匹配每一个新行符的前面和后面位置：Regex.Match("string","regex",RegexOptions.Multiline)

应用：stringstr = Regex.Replace(Original,"^",">",RegexOptions.Multiline)--将会在每行的行首插入“>”。

绝对锚定

<<A>>只匹配整个字符串的开始位置，<<Z>>只匹配整个字符串的结束位置。即使你使用了“多行模式”，<<A>>和<<Z>>也从不匹配新行符。

即使Z和$只匹配字符串的结束位置，仍然有一个例外的情况。如果字符串以新行符结束，则Z和$将会匹配新行符前面的位置，而不是整个字符串的最后面。这个“改进”是由Perl引进的，然后被许多的正则表达式实现所遵循，包括Java，.NET等。如果应用<<^[a-z]+$>>到“joen”，则匹配结果是“joe”而不是“joen”。

9.单词边界

元字符<>也是一种对位置进行匹配的“锚”。这种匹配是0长度匹配。

有4种位置被认为是“单词边界”：

1)在字符串的第一个字符前的位置(如果字符串的第一个字符是一个“单词字符”)

2)在字符串的最后一个字符后的位置(如果字符串的最后一个字符是一个“单词字符”)

3)在一个“单词字符”和“非单词字符”之间，其中“非单词字符”紧跟在“单词字符”之后

4)在一个“非单词字符”和“单词字符”之间，其中“单词字符”紧跟在“非单词字符”后面

“单词字符”是可以用“w”匹配的字符，“非单词字符”是可以用“W”匹配的字符。在大多数的正则表达式实现中，“单词字符”通常包括<<[a-zA-Z0-9_]>>。

例如：<<b4b>>能够匹配单个的4而不是一个更大数的一部分。这个正则表达式不会匹配“44”中的4。

换种说法，几乎可以说<>匹配一个“字母数字序列”的开始和结束的位置。

“单词边界”的取反集为<>，他要匹配的位置是两个“单词字符”之间或者两个“非单词字符”之间的位置。

深入正则表达式引擎内部

让我们看看把正则表达式<<bisb>>应用到字符串“This island isbeautiful”。引擎先处理符号<>。因为b是0长度，所以第一个字符T前面的位置会被考察。因为T是一个“单词字符”，而它前面的字符是一个空字符(void)，所以b匹配了单词边界。接着<>和第一个字符“T”匹配失败。匹配过程继续进行，直到第五个空格符，和第四个字符“s”之间又匹配了<>。然而空格符和<>不匹配。继续向后，到了第六个字符“i”，和第五个空格字符之间匹配了<>，然后<<is>>和第六、第七个字符都匹配了。然而第八个字符和第二个“单词边界”不匹配，所以匹配又失败了。到了第13个字符i，因为和前面一个空格符形成“单词边界”，同时<<is>>和“is”匹配。引擎接着尝试匹配第二个<>。因为第15个空格符和“s”形成单词边界，所以匹配成功。引擎“急着”返回成功匹配的结果。

10.选择符

正则表达式中“|”表示选择。你可以用选择符匹配多个可能的正则表达式中的一个。

如：

搜索文字“cat”或“dog”，你可以用<<cat|dog>>

选择符,在正则表达式中具有最低的优先级，也就是说，它告诉引擎要么匹配选择符左边的所有表达式，要么匹配右边的所有表达式。你也可以用圆括号来限制选择符的作用范围。

如：

<<b(cat|dog)b>>，这样告诉正则引擎把(cat|dog)当成一个正则表达式单位来处理。

11.组与向后引用

把正则表达式的一部分放在圆括号()内，你可以将它们形成组。然后你可以对整个组使用一些正则操作，例如重复操作符。

要注意的是，只有圆括号“()”才能用于形成组。“[]”用于定义字符集。“{}”用于定义重复操作。

当用“()”定义了一个正则表达式组后，正则引擎则会把被匹配的组按照顺序编号，存入缓存。当对被匹配的组进行向后引用的时候，可以用“数字”的方式进行引用。<<1>>引用第一个匹配的后向引用组，<<2>>引用第二个组，以此类推，<<n>>引用第n个组。而<<>>则引用整个被匹配的正则表达式本身。

如：

假设你想匹配一个HTML标签的开始标签和结束标签，以及标签中间的文本。比如Thisis a test，我们要匹配和以及中间的文字。我们可以用如下正则表达式：“<([A-Z][A-Z0-9]*)[^>]*>.*?</1>”

首先，“<”将会匹配“”的第一个字符“<”。然后[A-Z]匹配B，[A-Z0-9]*将会匹配0到多次字母数字，后面紧接着0到多个非“>”的字符。最后正则表达式的“>”将会匹配“”的“>”。接下来正则引擎将对结束标签之前的字符进行惰性匹配，直到遇到一个“</”符号。然后正则表达式中的“1”表示对前面匹配的组“([A-Z][A-Z0-9]*)”进行引用，在本例中，被引用的是标签名“B”。所以需要被匹配的结尾标签为“”

你可以对相同的后向引用组进行多次引用，<<([a-c])x1x1>>将匹配“axaxa”、“bxbxb”以及“cxcxc”。

注意：

1.如果用数字形式引用的组没有有效的匹配，则引用到的内容简单的为空。

2.一个后向引用不能用于它自身。<<([abc]1)>>是错误的。因此你不能将<<>>用于一个正则表达式匹配本身，它只能用于替换操作中。

3.后向引用不能用于字符集内部。<<(a)[1b]>>中的<<1>>并不表示后向引用。在字符集内部，<<1>>可以被解释为八进制形式的转码。

4.向后引用会降低引擎的速度，因为它需要存储匹配的组。如果你不需要向后引用，你可以告诉引擎对某个组不存储。例如：<<Get(?:Value)>>。其中“(”后面紧跟的“?:”会告诉引擎对于组(Value)，不存储匹配的值以供后向引用。

5.重复操作与后向引用

当对组使用重复操作符时，缓存里后向引用内容会被不断刷新，只保留最后匹配的内容。例如：<<([abc]+)=1>>将匹配“cab=cab”，但是<<([abc])+=1>>却不会。因为([abc])第一次匹配“c”时，“1”代表“c”；然后([abc])会继续匹配“a”和“b”。最后“1”代表“b”，所以它会匹配“cab=b”。

小应用：

检查重复单词--当编辑文字时，很容易就会输入重复单词，例如“the the”。使用<<b(w+)s+1b>>可以检测到这些重复单词。要删除第二个单词，只要简单的利用替换功能替换掉“1”就可以了。

6.组的命名和引用

在PHP，Python中，可以用<<(?P<name>group)>>来对组进行命名。在本例中，词法?P<name>就是对组(group)进行了命名。其中name是你对组的起的名字。你可以用(?P=name)进行引用。

.NET的命名组有自己的一套规则

12.原子组与防止回溯

在一些特殊情况下，因为回溯会使得引擎的效率极其低下。

让我们看一个例子：要匹配这样的字串，字串中的每个字段间用逗号做分隔符，第12个字段由P开头。

我们容易想到这样的正则表达式<<^(.*?,){11}P>>。这个正则表达式在正常情况下工作的很好。但是在极端情况下，如果第12个字段不是由P开头，则会发生灾难性的回溯。如要搜索的字串为“1,2,3,4,5,6,7,8,9,10,11,12,13”。首先，正则表达式一直成功匹配直到第12个字符。这时，前面的正则表达式消耗的字串为“1,”，到了下一个字符，<>并不匹配“12”。所以引擎进行回溯，这时正则表达式消耗的字串为“1,11”。继续下一次匹配过程，下一个正则符号为点号<<.>>，可以匹配下一个逗号“,”。然而<<，>>并不匹配字符“12”中的“1”。匹配失败，继续回溯。大家可以想象，这样的回溯组合是个非常大的数量。因此可能会造成引擎崩溃。

用于阻止这样巨大的回溯有几种方案：

一种简单的方案是尽可能的使匹配精确。用取反字符集代替点号。例如我们用如下正则表达式<<^([^,rn]*,){11}P>>，这样可以使失败回溯的次数下降到11次。

另一种方案是使用原子组。

原子组的目的是使正则引擎失败的更快一点。因此可以有效的阻止海量回溯。原子组的语法是<<(?>正则表达式)>>。位于(?>)之间的所有正则表达式都会被认为是一个单一的正则符号。一旦匹配失败，引擎将会回溯到原子组前面的正则表达式部分。前面的例子用原子组可以表达成<<^(?>(.*?,){11})P>>。一旦第十二个字段匹配失败，引擎回溯到原子组前面的<<^>>。

13.向前查看与向后查看

Perl 5引入了两个强大的正则语法：“向前查看”和“向后查看”。他们也被称作“零长度断言”。他们和锚定一样都是零长度的（所谓零长度即指该正则表达式不消耗被匹配的字符串）。不同之处在于“前后查看”会实际匹配字符，只是他们会抛弃匹配只返回匹配结果：匹配或不匹配。这就是为什么他们被称作“断言”。他们并不实际消耗字符串中的字符，而只是断言一个匹配是否可能。

几乎本文讨论的所有正则表达式的实现都支持“向前向后查看”。唯一的一个例外是Javascript只支持向前查看。

肯定和否定式的向前查看

如我们前面提过的一个例子：要查找一个q，后面没有紧跟一个u。也就是说，要么q后面没有字符，要么后面的字符不是u。采用否定式向前查看后的一个解决方案为<<q(?!u)>>。否定式向前查看的语法是<<(?!查看的内容)>>。

肯定式向前查看和否定式向前查看很类似：<<(?=查看的内容)>>。

如果在“查看的内容”部分有组，也会产生一个向后引用。但是向前查看本身并不会产生向后引用，也不会被计入向后引用的编号中。这是因为向前查看本身是会被抛弃掉的，只保留匹配与否的判断结果。如果你想保留匹配的结果作为向后引用，你可以用<<(?=(regex))>>来产生一个向后引用。

肯定和否定式的先后查看

向后查看和向前查看有相同的效果，只是方向相反

否定式向后查看的语法是：<<(?<!查看内容)>>

肯定式向后查看的语法是：<<(?<=查看内容)>>

我们可以看到，和向前查看相比，多了一个表示方向的左尖括号。

例：<<(?<!a)b>>将会匹配一个没有“a”作前导字符的“b”。

值得注意的是：向前查看从当前字符串位置开始对“查看”正则表达式进行匹配；向后查看则从当前字符串位置开始先后回溯一个字符，然后再开始对“查看”正则表达式进行匹配。

深入正则表达式引擎内部

让我们看一个简单例子。

把正则表达式<<q(?!u)>>应用到字符串“Iraq”。正则表达式的第一个符号是<<q>>。正如我们知道的，引擎在匹配<<q>>以前会扫过整个字符串。当第四个字符“q”被匹配后，“q”后面是空字符(void)。而下一个正则符号是向前查看。引擎注意到已经进入了一个向前查看正则表达式部分。下一个正则符号是<>，和空字符不匹配，从而导致向前查看里的正则表达式匹配失败。因为是一个否定式的向前查看，意味着整个向前查看结果是成功的。于是匹配结果“q”被返回了。

我们在把相同的正则表达式应用到“quit”。<<q>>匹配了“q”。下一个正则符号是向前查看部分的<>，它匹配了字符串中的第二个字符“i”。引擎继续走到下个字符“i”。然而引擎这时注意到向前查看部分已经处理完了，并且向前查看已经成功。于是引擎抛弃被匹配的字符串部分，这将导致引擎回退到字符“u”。

因为向前查看是否定式的，意味着查看部分的成功匹配导致了整个向前查看的失败，因此引擎不得不进行回溯。最后因为再没有其他的“q”和<<q>>匹配，所以整个匹配失败了。

为了确保你能清楚地理解向前查看的实现，让我们把<<q(?=u)i>>应用到“quit”。<<q>>首先匹配“q”。然后向前查看成功匹配“u”，匹配的部分被抛弃，只返回可以匹配的判断结果。引擎从字符“i”回退到“u”。由于向前查看成功了，引擎继续处理下一个正则符号<>。结果发现<>和“u”不匹配。因此匹配失败了。由于后面没有其他的“q”，整个正则表达式的匹配失败了。

更深入理解正则表达式引擎内部机制

让我们把<<(?<=a)b>>应用到“thingamabob”。引擎开始处理向后查看部分的正则符号和字符串中的第一个字符。在这个例子中，向后查看告诉正则表达式引擎回退一个字符，然后查看是否有一个“a”被匹配。因为在“t”前面没有字符，所以引擎不能回退。因此向后查看失败了。引擎继续走到下一个字符“h”。再一次，引擎暂时回退一个字符并检查是否有个“a”被匹配。结果发现了一个“t”。向后查看又失败了。

向后查看继续失败，直到正则表达式到达了字符串中的“m”，于是肯定式的向后查看被匹配了。因为它是零长度的，字符串的当前位置仍然是“m”。下一个正则符号是<>，和“m”匹配失败。下一个字符是字符串中的第二个“a”。引擎向后暂时回退一个字符，并且发现<<a>>不匹配“m”。

在下一个字符是字符串中的第一个“b”。引擎暂时性的向后退一个字符发现向后查看被满足了，同时<>匹配了“b”。因此整个正则表达式被匹配了。作为结果，正则表达式返回字符串中的第一个“b”。

向前向后查看的应用

我们来看这样一个例子：查找一个具有6位字符的，含有“cat”的单词。

首先，我们可以不用向前向后查看来解决问题，例如：

<<catw{3}|wcatw{2}|w{2}catw|w{3}cat>>

足够简单吧！但是当需求变成查找一个具有6-12位字符，含有“cat”，“dog”或“mouse”的单词时，这种方法就变得有些笨拙了。

我们来看看使用向前查看的方案。在这个例子中，我们有两个基本需求要满足：一是我们需要一个6位的字符，二是单词含有“cat”。

满足第一个需求的正则表达式为<<bw{6}b>>。满足第二个需求的正则表达式为<<bw*catw*b>>。

把两者结合起来，我们可以得到如下的正则表达式：

<<(?=bw{6}b)bw*catw*b>>

具体的匹配过程留给读者。但是要注意的一点是，向前查看是不消耗字符的，因此当判断单词满足具有6个字符的条件后，引擎会从开始判断前的位置继续对后面的正则表达式进行匹配。

最后作些优化，可以得到下面的正则表达式：

<<b(?=w{6}b)w{0,3}catw*>>

14. 正则表达式中的条件测试

条件测试的语法为<<(?ifthen|else)>>。“if”部分可以是向前向后查看表达式。如果用向前查看，则语法变为：<<(?(?=regex)then|else)>>，其中else部分是可选的。

如果if部分为true，则正则引擎会试图匹配then部分，否则引擎会试图匹配else部分。

需要记住的是，向前先后查看并不实际消耗任何字符，因此后面的then与else部分的匹配时从if测试前的部分开始进行尝试。

15. 为正则表达式添加注释

在正则表达式中添加注释的语法是：<<(?#comment)>>

例：为用于匹配有效日期的正则表达式添加注释：

(?#year)(19|20)dd[-/.](?#month)(0[1-9]|1[012])[-/.](?#day)(0[1-9]|[12][0-9]|3[01])

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!