python基础学习14----正则表达式

发布时间：2020-12-17 00:16:59 所属栏目：Python 来源：网络整理

导读：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。在python中正则表达式被封装到了re模块，通过引入re模块来使用正则表达式 r

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

在python中正则表达式被封装到了re模块，通过引入re模块来使用正则表达式

re模块中有很数，首先用findall函数介绍基本基本字符的含义

元字符有：. ? ?* ?+ ?? ?^ ?$ ?| ?{} ?[] ?()

. ?匹配任意除换行符"n"外的字符

temp=re.findall("a.c","abcdefagch")
print(temp)#['abc','agc']

* ?匹配前一个字符0或多次

+ ?匹配前一个字符1次或无限次

? ?匹配前一个字符0次或1次

^ ?匹配字符串开头。在多行模式中匹配每一行的开头

$ ?匹配字符串末尾，在多行模式中匹配每一行的末尾

| ?或。匹配|左右表达式任意一个，从左到右匹配，如果|没有包括在()中，则它的范围是整个正则表达式

{} ?{m}匹配前一个字符m次，{m,n}匹配前一个字符m至n次，若省略n，则匹配m至无限次

[] ?字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出，也可以给出范围，如[abc]或[a-c]。[^abc]表示取反，即非abc，所有特殊字符在字符集中都失去其原有的特殊含义。用反斜杠转义恢复特殊字符的特殊含义。

() ?被括起来的表达式将作为分组，从表达式左边开始每遇到一个分组的左括号“（”，编号+1.分组表达式作为一个整体，可以后接数量词。表达式中的|仅在该组中有效。

要想看到被完全匹配的内容，我

<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">temp=re.search("(abc){2}a(123|456)c","abcabca456c")
print(temp)#<re.Match object; span=(0,11),match='abcabca456c'>
print(temp.group())#abcabca456c

?转义字符，使后一个字符改变原来的意思

反斜杠后边跟元字符去除特殊功能；（即将特殊字符转义成普通字符）

print(temp.group())#a$

引用序号对应的字组所匹配的字符串。

即下面的2为前边第二个括号中的内容，2代表第几个，从1开始

反斜杠后边跟普通字符实现特殊功能；（即预定义字符）　　

预定义字符有：d D s S w W A Z b B

预定义字符在字符集中仍有作用

d ?数字:[0-9]

D ?非数字:[^d]

s ?匹配任何空白字符:[<空格>trnfv]

S ?非空白字符:[^s]

w ?匹配包括下划线在内的任何字字符:[A-Za-z0-9_]

W ?匹配非字母字符，即匹配特殊字符

A ?仅匹配字符串开头,同^

Z ?仅匹配字符串结尾，同$

b ?匹配w和W之间的边界

B ?[^b]

下面介绍其他的re常用函数

<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">rule = re.compile("abcd+w")
str = "aaaabc6def"
temp = rule.findall(str)
print(temp)#['abc6d']

<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">temp=re.match("asd","asdfasd")
print(temp.group())#asd

<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">temp=re.finditer("d+","as11d22f33a44sd")
print(temp)#<callable_iterator object at 0x00000242EEEE9E48>
for i in temp:
print(i.group())

11

22

33

44

<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">temp=re.split("d+","as11d22f33a44sd55")
print(temp)#['as','a','sd','']

使用字符集分割

如下先以a分割，再将分割后的字符串们以b分割，所以会出现3个空字符串

后边还可以再加一个参数表示替换次数，默认为0表示全替换

subn函数

<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">temp=re.subn("d+","ab123b456ba789b0")
print(temp)#('ab_b_bab',4)

然后讲一下

d+)(?P[a-zA-Z])","ab123b456ba789b0") print(temp.group("number"))#123 print(temp.group("letter"))#b

以?P的形式起名

d+)(?P[a-zA-Z]+)(?P=number)","ab123b123ba789b7789") print(temp.group())#123b123

注意这里?P=number的两个分组必须匹配的一模一样，不只是规则一样，而是内容都一样

?最后说一下

此时为贪婪匹配，即只要符合就匹配到底

在后面加一个？变为惰性匹配，即只要匹配成功一个字符就结束匹配　

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!