C#中正则表达式的3种匹配模式
在C#中,我们一般使用Regex类来表示一个正则表达式。一般正则表达式引擎支持以下3种匹配模式:单行模式(Singleline)、多行模式(Multiline)与忽略大小写(IgnoreCase)。 1. 单行模式(Singleline) 示例: 我们使用WebBrowser控件,从http://www.xxx.com/1.htm上获取了如下HTML源码,它存储在变量str中: <html> 我们想把div标签以及其中的内容提取出来,编写代码如下: string pattern = @"<div>.*</div>"; Regex regex = new Regex(pattern); if (regex.IsMatch(str)) Console.WriteLine(regex.Match(str).Value); else Console.WriteLine("Mismatch!"); //结果为:Mismatch! 错误分析: 一般认为点符号(.)是匹配任意单个字符的,而(.*)就是匹配任意多个字符。但实际上点符号不能匹配换行符。在Windows中与它等效的表达式为[^rn]。 string pattern = @"<div>.*</div>"; Regex regex = new Regex(pattern,RegexOptions.Singleline); if (regex.IsMatch(str)) Console.WriteLine(regex.Match(str).Value); else Console.WriteLine("Mismatch!"); /* 单行模式的嵌入修饰符: 我们可以直接在正则表达式中嵌入单行模式: (?s)<div>.*</div> (?s)修饰符说明,其后面的表达式采用单行模式。所以使用时请不要将它放在末尾。另外可以使用(?-s)关闭单行模式。 注意:嵌入模式的优先级要高于Regex类的RegexOptions设置,所以使用了(?s)后,无论是否使用RegexOptions.Singleline,均按照单行模式解析。 2. 多行模式(Multiline) MSDN定义:更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。 示例: 有一个文本文件,它的每一行是一个用户名,将文件读入变量str中进行处理。其内容如下: 二十四画生 借用博客园各位前辈的大名:) 我们想找出一个使用英文字母开头的用户名,编写代码如下: string pattern = @"^[A-Za-z]+.*"; Regex regex = new Regex(pattern); if (regex.IsMatch(str)) Console.WriteLine(regex.Match(str).Value); else Console.WriteLine("Mismatch!"); //结果为:Mismatch! 错误分析: (^)是字符串的起始锚定,str的第一个字符是一个中文字,所以匹配不上。我们就可以使用多行模式来改变(^)的含义,使它匹配每一行的起始,而不是整个字符串的起始。 更改代码如下: string pattern = @"^[A-Za-z]+.*"; Regex regex = new Regex(pattern,RegexOptions.Multiline); if (regex.IsMatch(str)) Console.WriteLine(regex.Match(str).Value); else Console.WriteLine("Mismatch!"); //结果为:TerryLee 同时,多行模式也会改变($)的含义,使它匹配每一行的结尾,而不是整个字符串的结尾。 与(^)和($)不同的是,(A)和(Z)并不受多行模式的影响,永远匹配整个字符串的起始和结尾。 多行模式的嵌入修饰符:(?m)与(?-m) 3. 忽略大小写(IgnoreCase) MSDN定义:指定不区分大小写的匹配。 这个模式很容易理解,它认为大小写字符是相同的。我们仍以上例来说明。 示例: string pattern = @"^[a-z]+.*"; Regex regex = new Regex(pattern,RegexOptions.Multiline | RegexOptions.IgnoreCase); if (regex.IsMatch(str)) Console.WriteLine(regex.Match(str).Value); else Console.WriteLine("Mismatch!"); //结果为:TerryLee 分析:请注意这次使用的正则表达式,我们并没有写入大写字母,但却匹配了以大写字母开头的名字,这就是忽略大小写的效果。 忽略大小写的嵌入修饰符:(?i)与(?-i) 总结: 最后我们用一个表格来总结一下这三个模式
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |