正则表达式_李大同

正则表达式

发布时间：2020-12-14 06:17:34 所属栏目：百科来源：网络整理

导读：如何使用python操作正则正则表达式是什么? 通过以恶搞规则从一段字符串中找到符合规则的内容/判断某段字符串是否符合规则有什么用? 注册页/网页上要求你输入一个信息判断你输入的信息是否格式正确爬取数据从网页上把代码以字符串形式下载回到内存,提

如何使用python操作正则
正则表达式
是什么? 通过以恶搞规则从一段字符串中找到符合规则的内容/判断某段字符串是否符合规则
有什么用?
- 注册页/网页上要求你输入一个信息判断你输入的信息是否格式正确
- 爬取数据从网页上把代码以字符串形式下载回到内存,提取这个大字符串中我们想要的内容
正则规则
- #1.字符组约束字符中某一个字符位置上的值是什么只要出现在字符组中的内容都算匹配到了
- #2. 普通字符串从小到大的顺序是根据ascii码的顺序来的
- #3.匹配数字 [0-9] 匹配字母[A-Za-z] 匹配数字和字母的组合[0-9a-zZ-Z]
元字符
- .匹配除了换行符之外的所有字符
- d s w 数字空白数字字母下划线
- D S W非(数字空白数字字母下划线）
- ^ $ 开始结束
- n t b 换行制表单词两端
- | 或者
- () 匹配括号内的表达式,也表示一个组
- [...]匹配字符组中的字符
- [^...匹配除了字符组中字符的所有字符]
量词
- * 重复零次或者更多次
- + 重复一次或更多次
- ? 重复零次或者一次
- {} 重复n次
- {n,}重复n次或更多次
- {n,m}重复n到m次
. ^ $
- 正则待匹配字符匹配结果说明
- 海. 海燕海娇海东海燕海娇海东 ?匹配所有"海."的字符
- ^海. 海燕海娇海东海燕只从开头匹配"海."
- 海.$ ?海燕海娇海东海东只匹配结尾的"海.$"
* + ? { } 前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配
字符集[] [^]
分组() 与或| [^]
转义符
- 在正则表达式中，有很多有特殊意义的是元字符，比如d和s等，如果要在正则中匹配
- 正常的"d"而不是"数字"就需要对""进行转义，变成‘‘。
- 在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串
- 中也有特殊的含义，本身还需要转义。所以如果匹配一次"d",字符串中要写成‘d‘，那么
- 正则里就要写成"\d",这样就太麻烦了。这个时候我们就用到了r‘d‘这个概念，此时的
- 正则是r‘d‘就可以了。
- 正则待匹配字符匹配结果说明
- d d ?False 因为在正则表达式中是有特殊意义的字符，所以要匹配d本身，用表达式d无法匹配
- d d ?True 转义之后变成，即可匹配
- "\d" ‘d‘ ?True 如果在python中，字符串中的‘‘也需要转义，所以每一个字符串‘‘又需要转义一次
- r‘d‘ r‘d‘ ?True 在字符串之前加r，让整个字符串不转义
贪婪匹配
贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配
- 正则待匹配字符匹配结果说明
- <.*> <script>...<script> <script>...<script> 默认为贪婪匹配模式，会匹配尽量长的字符串
- <.*?> r‘d‘ ?<script><script> 加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串
几个常用的非贪婪匹配Pattern
- *? 重复任意次,但尽可能少重复
- +?重复1次或更多次,但尽可能少重复
- ??重复0次或者1次,但尽可能少重复
- (n,m)?重复n到m次，但尽可能少重复
- (n,)? 重复n次以上,但尽可能少重复
- .*?的用法:
  - . 是任意字符
  - * 是取 0 至无限长度
  - ? 是非贪婪模式。
  - 何在一起就是取尽量少的任意字符，一般不会这么单独写，他大多用在：
  - .*?x
  - 就是取前面任意长度的字符，直到一个x出现
import re
- 正则表达式本身具有处理字符串的能力
- 如果要处理的字符串存在python的内存中
- 模块 -> 操作正则表达式

 1 ret = re.findall(‘a‘,‘eva egon yuan‘)  # 返回所有满足匹配条件的结果,放在列表里
 2 print(ret) #结果 : [‘a‘,‘a‘]
 3 
 4 ret = re.search(‘a‘,‘eva egon yuan‘).group()
 5 print(ret) #结果 : ‘a‘
 6 # 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
 7 # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。
 8 
 9 ret = re.match(‘a‘,‘abc‘).group()  # 同search,不过尽在字符串开始处进行匹配
10 print(ret)
11 #结果 : ‘a‘
12 
13 ret = re.split(‘[ab]‘,‘abcd‘)  # 先按‘a‘分割得到‘‘和‘bcd‘,在对‘‘和‘bcd‘分别按‘b‘分割
14 print(ret)  # [‘‘,‘‘,‘cd‘]
15 
16 ret = re.sub(‘d‘,‘H‘,‘eva3egon4yuan4‘,1)#将数字替换成‘H‘，参数1表示只替换1个
17 print(ret) #evaHegon4yuan4
18 
19 ret = re.subn(‘d‘,‘eva3egon4yuan4‘)#将数字替换成‘H‘，返回元组(替换的结果,替换了多少次)
20 print(ret)
21 
22 obj = re.compile(‘d{3}‘)  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
23 ret = obj.search(‘abc123eeee‘) #正则表达式对象调用search，参数为待匹配的字符串
24 print(ret.group())  #结果 ： 123
25 
26 import re
27 ret = re.finditer(‘d‘,‘ds3sy4784a‘)   #finditer返回一个存放匹配结果的迭代器
28 print(ret)  # <callable_iterator object at 0x10195f940>
29 print(next(ret).group())  #查看第一个结果
30 print(next(ret).group())  #查看第二个结果
31 print([i.group() for i in ret])  #查看剩余的左右结果

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!