3. 元字符(),元字符backslash。做为 Python 中的字符串字母,反斜杠后面可以加不同的字符以表示不同特殊意义。
它也可以用于取消所有的元字符,这样你就可以在模式中匹配它们了。例如,如果你需要匹配字符 "[" 或 "",你可以在它们之前用反斜杠来取消它们的特殊意义: [ 或
4。元字符($)匹配字符串的结尾或者字符串结尾的换行之前。(在MULTILINE模式下,"$"也匹配换行之前)
正则表达式"foo"既匹配"foo"又匹配"foobar",而"foo$"仅仅匹配"foo".
>>> re.findall("foo.$","foo1nfoo2n")#匹配字符串的结尾的换行符之前。
['foo2']
['foo1','foo2']
>>> m=re.search("foo.$","foo1nfoo2n")
>>> m
<_sre.SRE_Match object at 0x00A27170>
>>> m.group()
'foo2'
'foo1'
看来re.MULTILINE对$的影响还是蛮大的。
5.元字符(*),匹配0个或多个
6.元字符(?),匹配一个或者0个
7.元字符(+),匹配一个或者多个
8,元字符(|),表示"或",如A|B,其中A,B为正则表达式,表示匹配A或者B
9.元字符({})
{m},用来表示前面正则表达式的m次copy,如"a{5}",表示匹配5个”a”,即"aaaaa"
>>> re.findall("a{5}","aaaaaaaaaa")
['aaaaa','aaaaa']
['aaaaa']
{m.n}用来表示前面正则表达式的m到n次copy,尝试匹配尽可能多的copy。
>>> re.findall("a{2,4}","aaaaaaaa")
['aaaa','aaaa']
通过上面的例子,可以看到{m,n},正则表达式优先匹配n,而不是m,因为结果不是["aa","aa","aa"]
>>> re.findall("a{2}",207)"> ['aa','aa','aa']
{m,n}?用来表示前面正则表达式的m到n次copy,尝试匹配尽可能少的copy
>>> re.findall("a{2,4}?",207)"> 10。元字符("( )" ),用来表示一个group的开始和结束。
比较常用的有(REs),(?P<name>REs),这是无名称的组和有名称的group,有名称的group,可以通过matchObject.group(name)
获取匹配的group,而无名称的group可以通过从1开始的group序号来获取匹配的组,如matchObject.group(1)。具体应用将在下面的group()方法中举例讲解