正则表达式入门

发布时间：2020-12-13 22:23:15 所属栏目：百科来源：网络整理

导读：“ . ” ：元字符 . 指的是 “ 任意字符 ” 有两种方法可以强制将元字符处理成为普通字符： 1. 在元字符前加上反斜线（）； 2. 把它放在 Q （引用开始）和 E （引用结束）之间。在使用这种技术时， Q 和 E 能被放于表达式中的任何位置（假设先出现 Q

“.”：元字符.指的是“任意字符”

有两种方法可以强制将元字符处理成为普通字符：

1.在元字符前加上反斜线（）；

2.把它放在Q（引用开始）和E（引用结束）之间。在使用这种技术时，Q和E能被放于表达式中的任何位置（假设先出现Q）

abc+的意思就是“a后面接着b，再接着一次或者多次的c”，它的意思并不是指abc一次或者多次。

(abc)+表示一次或者多次的“abc”组。

[abc]+表示一次或者多次的a或b或c。

在贪婪、勉强和侵占三个量词间有着细微的不同。

　　贪婪量词之所以称之为“贪婪的”，这是由于它们强迫匹配器读入（或者称之为吃掉）整个输入的字符串，来优先尝试第一次匹配，如果第一次尝试匹配（对于整个输入的字符串）失败，匹配器会通过回退整个字符串的一个字符再一次进行尝试，不断地进行处理直到找到一个匹配，或者左边没有更多的字符来用于回退了。赖于在表达式中使用的量词，最终它将尝试地靠着1或0个字符的匹配。

　　但是，勉强量词采用相反的途径：从输入字符串的开始处开始，因此每次勉强地吞噬一个字符来寻找匹配，最终它们会尝试整个输入的字符串。

最后，侵占量词始终是吞掉整个输入的字符串，尝试着一次（仅有一次）匹配。不像贪婪量词那样，侵占量词绝不会回退，即使这样做是允许全部的匹配成功。

第一个例子使用贪婪量词.*，寻找紧跟着字母“f”“o”“o”的“任何东西”零次或者多次。由于量词是贪婪的，表达式的.*部分第一次“吃掉”整个输入的字符串。在这一点，全部表达式不能成功地进行匹配，这是由于最后三个字母（“f”“o”“o”）已经被消耗掉了。那么匹配器会慢慢地每次回退一个字母，直到返还的“foo”在最右边出现，这时匹配成功并且搜索终止。

然而，第二个例子采用勉强量词，因此通过首次消耗“什么也没有”作为开始。由于“foo”并没有出现在字符串的开始，它被强迫吞掉第一个字母（“x”），在0和4处触发了第一个匹配。测试用具会继续处理，直到输入的字符串耗尽为止。在4和13找到了另外一个匹配。
　　第三个例子的量词是侵占，所以在寻找匹配时失败了。在这种情况下，整个输入的字符串被.*+消耗了，什么都没有剩下来满足表达式末尾的“foo”。
　　你可以在想抓取所有的东西，且决不回退的情况下使用侵占量词，在这种匹配不是立即被发现的情况下，它将会优于等价的贪婪量词。

对于检查一个单词开始和结束的边界模式（用于长字符串里子字符串），这时可以在两边使用b，例如bdogb。

对于匹配非单词边界的表达式，可以使用B来代替

常量	等价的内嵌标志表达式	解释说明
Pattern.CANON_EQ	没有	启用规范等价
Pattern.CASE_INSENSITIVE	(?i)	启用不区分大小写匹配
Pattern.COMMENTS	(?x)	模式中允许存在空白和注释
Pattern.MULITLINE	(?m)	启用多行（multiline）模式
Pattern.DOTALL	(?s)	启用dotall模式。在dotall模式下，表达式.匹配包括行结束符在内的任意字符
Pattern.LITERAL	没有	启用模式的字面分析。指定该标志后，指定模式的输入字符串作为字面上的字符序列来对待
Pattern.UNICODE_CASE	(?u)
Pattern.UNIX_LINES	(?d)

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!