正则表达式之<四>使用元字符
发布时间:2020-12-14 02:21:17 所属栏目:百科 来源:网络整理
导读:1.元字符是一些在正则表达式中有着特殊含义的字符。 也就是说这些字符是无法代表它们本身的,如果想表式它们本身就必须经过转义。 任何一个元字符都可以通过给他加上 反斜杠字符()作为前缀的办法来转义 。 举例: 在需要匹配 本身的时候,我们必须把它转义
1.元字符是一些在正则表达式中有着特殊含义的字符。
也就是说这些字符是无法代表它们本身的,如果想表式它们本身就必须经过转义。 任何一个元字符都可以通过给他加上 反斜杠字符()作为前缀的办法来转义。 举例: 在需要匹配 本身的时候,我们必须把它转义为 2.匹配空白字符 元字符分两种: (1)一种用于匹配文本的(比如‘.’) (2)另一种用于正则表达式的语法所要求的(比如‘[’和‘]’) [b] 回退一个字符 f 换页符 n 换行符 r 回车符 t 制表符 v 垂直制表符 3、匹配特定的字符类别 一些常用的字符集合可以使用特殊字符来代替 (1)匹配数字(与非数字) d 相当于[0-9],匹配任何一个数字 D 相当于[^0-9],匹配任何一个非数字 (2)匹配字母和数字(与非字母和数字) w相当于[A-Za-z0-9_],匹配任何一个字母数字字符或下划线字符 W 相当于[^A-Za-z0-9_],匹配任何一个非字母数字字符或非下划线字符 (3)匹配空白字符(与非空白字符) s相当于[fnrtv],匹配任何一个空白字符 S 相当于[^fnrtv],匹配任何一个非空白字符 4、元字符分为”贪婪型“与”懒惰型“两种 贪婪型: 当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符 考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。 懒惰型: 我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧: a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。 eg: 文本: This offer is not availiable to customers living in <B>AK</B> and <B>HI</B>. or <B></B> or <b>ak</B> 正则: <Bb>.*</Bb> 匹配结果:(贪婪型)注意看颜色表示匹配程度。 正则: <Bb>.*?</Bb> 匹配结果:(懒惰型) 懒惰限定符 代码 / 语法说明 *? 重复任意次,但尽可能少重复 +? 重复1次或更多次,但尽可能少重复 ?? 重复0次或1次,但尽可能少重复 {n,m}? 重复n到m次,但尽可能少重复 {n,}? 重复n次以上,但尽可能少重复 5、常用元字符表 代码 说明 . 匹配除换行符以外的任意字符 w 匹配字母或数字或下划线或汉字 s 匹配任意的空白符 d 匹配数字 b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 常用的反义代码 代码/语法 说明 W 匹配任意不是字母,数字,下划线,汉字的字符 S 匹配任意不是空白符的字符 D 匹配任意非数字的字符 B 匹配不是单词开头或结束的位置 [^x] 匹配除了x以外的任意字符 [^aeiou]匹配除了aeiou这几个字母以外的任意字符 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |