正则表达式中的贪婪模式与非贪婪模式解析
在讲贪婪模式和惰性模式之前,先回顾一下JS正则基础: 写法基础: ①不需要双引号,直接用//包含 => /wehfwue123123/.test(); ②反斜杠表示转义 =>/.jpg$/ ③用法基础:.test(str); 语法: ①锚点类 /^a/=>以"a"开头 /.jpg$/=>以".jpg"结尾 ②字符类 [abc]:a或b或c [0-9]:一个数字 [a-z]:一个字母 . :任意字符 ③元字符 ^:在[]里面用表示非,在[]外面用表示开头 d:[0-9] s:空白符 w:[A-Za-z0-9_] D:[^d]-非数字 S:非空白符 ④量词 {m,n}:m到n次 元字符表示: *:{0,} ?:{0,1} +:{1,}
难点:贪婪模式/惰性模式 贪婪模式——在匹配成功的前提下,尽可能多的去匹配 惰性模式——在匹配成功的前提下,尽可能少的去匹配 解释一:码文并茂 使用正则表达式中的贪婪、惰性的量词可以控制表达式匹配过程,我们知道量词?、*、+的意义,可以指定相关模式出现的次数,默认的情况下我们使用的是贪婪量词,它的匹配过程是从整个字符串开始查看,如果不匹配就去掉最后一个,再看看是否匹配,如此循环一直到匹配或字符串空为止,如: vars="abbbaabbbaaabbb1234"; varre1=/.*bbb/g;//*是贪婪量词 re1.test(s); 这个匹配过程将从整个字符串开始: re1.test("abbbaabbbaaabbb1234");//false,则去掉最后一个字符4再继续 re1.test("abbbaabbbaaabbb123");//false,则去掉最后一个字符3再继续 re1.test("abbbaabbbaaabbb12");//false,则去掉最后一个字符2再继续 re1.test("abbbaabbbaaabbb1");//false,则去掉最后一个字符1再继续 re1.test("abbbaabbbaaabbb");//true,结束 在贪婪量词的后面加多一个?就变成了惰性量词,它的匹配过程相反,是从前面第一个开始,不匹配则加一个,如此循环直到字符串结束,以上面的为例子。 vars="abbbaabbbaaabbb1234"; varre1=/.*?bbb/g;//*?是惰性量词 re1.test(s); 它的匹配过程如下: re1.test("a");//false,再加一个 re1.test("ab");//false,再加一个 re1.test("abb");//false,再加一个 re1.test("abbb");//true,匹配了,保存这个结果,再从下一个开始 re1.test("a");//false,再加一个 re1.test("aa");//false,再加一个 re1.test("aab");//false,再加一个 re1.test("aabb");//false,再加一个 re1.test("aabbb");//true,匹配了,保存这个结果,再从下一个开始 ...... 三.解释二:直戳原理 贪婪与惰性模式区别如下: 一、从语法角度看 贪婪模式用于匹配优先量词修饰的子表达式,匹配优先量词包括:“{m,n}”、“{m,}”、“?”、“*”和“+”。 惰性模式用于匹配忽略优先量词修饰子表达式,匹配忽略优先量词包括:“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。 二、从应用角度看 两者均影响被量词修饰的子表达式匹配行为,贪婪模式在匹配成功的前提下尽可能多地匹配,而惰性模式则在匹配成功的前提下尽可能少匹配。惰性模式只被部分NFA引擎支持。 三、从匹配原理看 能达到同样匹配结果的情况下,通常贪婪模式效率较高。 惰性模式都可通过修改量词修饰的子表达式转换为贪婪模式。 贪婪模式可以与固化分组结合,提升匹配效率,而惰性模式不行。
文/玮哥今晚打老虎(简书作者) 原文链接:http://www.jianshu.com/p/889f3885a5bd 著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |