【读书】正则指引-2-量词

发布时间：2020-12-14 01:25:33 所属栏目：百科来源：网络整理

导读：多字符匹配的一般形式为什么需要量词？因为使用量词可以方便的匹配多个字符。以匹配邮政编码为例，其是由6位数字构成的字符串，比如201203。根据之前学习的知识，匹配这样的字符串需要使用正则表达式dddddd。而使用量词进行匹配则只需要写成d{6}。

多字符匹配的一般形式

为什么需要量词？因为使用量词可以方便的匹配多个字符。
以匹配邮政编码为例，其是由6位数字构成的字符串，比如201203。根据之前学习的知识，匹配这样的字符串需要使用正则表达式dddddd。而使用量词进行匹配则只需要写成d{6}。
量词可以表达不确定的长度，其通用形式是{m,n}，其中m和n是两个数字，m是下限，n是上限（均是闭区间），m和n共同限定了之前的元素能够出现的次数。
d{m,n}表示所匹配的数字字符串长度，最短是m个字符，最长是n个字符。
如果不确定长度的上限，可以省略n值，只给出m值，例如d{m,}，表示数字字符串的长度必须在m个字符之上。
量词限定的出现次数一般都有明确的下限，如果没有，则默认为0。
注：量词中的逗号之后绝不能有空格。

量词	说明
{n}	之前的元素必须出现n次
{m,n}	之前的元素最少出现m次，最多出现n次
{m,}	之前的元素最少出现m次，出现次数无上限
{0,n}	之前的元素可以不出现，也可以出现，最多出现n次（在某些语言中可以写为{,n}）

常用量词

{m,n}是量词表达的通用形式，在正则表达式中还存在三个作为“量词简记法”的常用量词，如下表：

常用量词	{m,n}等价形式	说明
*	{0,}	可能出现，也可能不出现，出现次数没有上限
+	{1,}	至少出现1次，出现次数没有上限
?	{0,1}	至多出现1次，也可能不出现

一些使用常用量词的例子：

针对美式英语和英式英语单词拼写的使用，如travell?er。
针对http和https两种协议的匹配，如https?。
匹配HTML中的所有tag，如<[^>]+>（该正则表达有一点缺陷，以前一篇文章和本文中的知识无法解决）。

针对各类tag的匹配：

匹配所有tag的表达式	tag分类	匹配分类tag的表达式
<[^>]+>	Open tag	<[^/>][^>]*>
	Close tag	</[^>]+>
	Self-closing tag	<[^>/]+/>

匹配双引号字符串，如”[^”]*”。

正则表达式使用原则：使用合适的结构（包括字符组和量词），精确表达自己的意图，界定能匹配的文本。
上面给出用于匹配open tag的正则表达式，也能够匹配self-closing tag。以目前已学知识无法解决。

特殊元字符：点号

一般文档都说，点号可以匹配“任意字符”，但事实是，点号可以匹配除换行符n之外的任意字符。如果非要匹配“任意字符”，有两种办法：在正则匹配时指定使用单行模式（目前不解释细节），在这种模式下，点号可以匹配换行符；或者使用之前说过的通配字符组[sS]（也可以是[dD]或[wW]）。
点号的使用容易出现滥用，比如随意使用.*或.+。
例如，之前我们使用”[^”]*”匹配双引号字符串，而“图省事”的做法是”.*”。这种用法会出现意外，因为用”.*”匹配双引号字符串，不但可以匹配正常的双引号字符串”quoted string”，还可以匹配格式错误的字符串”quoted string” and another”。另外”.*”无法匹配有换行符的情况。
这个问题简答的讲，是因为所使用量词的类型导致。之前介绍过的量词都属于匹配优先量词（greedy quantifier，也称作贪婪量词）。这类量词的特点是，在拿不准是否要匹配的时候，优先尝试匹配，并记下这个状态，以备将来进行回溯（backtracking）。例如下图所示过程

匹配优先量词使用的常见场景：

文件名解析（例如使用^.*/对/usr/local/bin/python进行路径匹配；用[^/]*$对文件名匹配）

与匹配优先量词对应的，正则表达式中还提供了忽略优先量词（lazy quantifier或reluctant quantifier，也称作懒惰量词）。这类量词的特点是，如果不确定是否要匹配，忽略优先量词会选择“不匹配”的状态，再尝试匹配表达式之后的元素，如果尝试失败，再回溯，重新使用忽略优先量词进行“匹配”。
忽略优先量词使用的常见场景：

匹配多段javascript代码（<script type=”text/javasript”>...</script>）；
匹配类似C语言那样的多行注释（行尾注释//...，和多行注释/*...*/）；
提取HTML代码中的超链接（<a href=”http://somehost/somepath”>text</a>）；

总之，忽略优先量词一般用于多行匹配中，且被匹配的行中可能重复出现某种模式。此时，忽略优先量词保证了只匹配到最先遇到的模式。
目前已知的匹配优先量词和其对应的忽略优先量词如下表所示

匹配优先量词	忽略优先量词	限定次数
*	*?	可能不出现，也可能出现，出现次数没有上限
+	+?	至少出现1次，出现次数没有上限
?	??	至多出现1次，也可能不出现
{m,n}	{m,n}?	出现次数最少为m次，最多为n次
{m,}	{m,}?	出现次数最少为m次，没有上限
{,n}	{,n}?	可能不出现，也可能出现，最多出现n次

匹配优先量词和忽略优先量词逐一对应，只是在对应的匹配优先量词之后添加?，两者限定的元素能出现的次数也一样，遇到不能匹配的情况同样需要回溯；唯一的区别在于，忽略优先量词会优先选择“忽略”，而匹配优先量词会优先选择“匹配”。另外，匹配优先量词只需要考虑自己限定的元素能够匹配即可，而忽略优先量词必须兼顾它所限定的元素和之后的元素，效率自然大大降低，当处理字符串很长时，尤为明显。
问题：C语言的两种注释方式，一种是在行末，以//开头；另一种可以跨多行，以/*开头，以*/结束。要匹配这两种注释，如何写正则表达式？
忽略优先量词在HTML页面解析中的应用：

类型	正则表达式
匹配table	<table[s>][sS]+?</table>
匹配tr	<tr[s>][sS]+?</tr>
匹配td	<td[s>][sS]+?</td>

注：因为tag是不区分大小写的，所以如果还希望匹配大小写的情况，则必须使用字符组，table写成[tT][aA][bB][lL][eE]。
在实际的HTML代码中，table、tr、td这三个元素经常是嵌套的，它们之间存在着包含关系。但是仅仅使用正则表达式匹配，并不能得到这种包含关系信息。换句话说，正则表达式只能进行纯粹的文本处理，单纯依靠它不能整理出层次结构；如果希望解析文本的同时构建层次结构信息，则必须将正则表达式配合程序代码一起使用。

转义

之前介绍过元字符的转义，这里要介绍的是量词的转义。
对于常用量词所使用的字符+、*、?来说，如果希望表示这三个字符本身，直接添加反斜线，变为+、*、?即可。但是在一般形式的量词{m,n}中，虽然具有特殊含义的字符不止一个，转义时却只需要给第一个{添加反斜线即可，也就是说，如果希望匹配字符串{m,n}，则正则表达式必须写成{m,n}。
需要注意的是针对忽略优先量词的转义，因为其需要对两个量词全部转义。例如，如果要匹配字符串*?，正则表达式必须写作*?，而不是*?。
下表为各种量词的转义

量词	转义形式
{n}	{n}
{m,n}	{m,n}
{m,}	{m,}
{,n}	{,n}
*	*
+	+
?	?
*?	*?
+?	+?
??	??

注：未转义的点号可以匹配除换行符之外的任何字符，其中也包含点号本身，所以经常有人会忽略对点号的转义。例如对3.14进行正则匹配需要^d+.d+$。

总结

本篇将《正则指引》的第二章内容进行了概括总结，下次讲解正则表达式中的括号。

参考资料

《正则指引》：余晟。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!