正则表达式

发布时间：2020-12-13 21:56:01 所属栏目：百科来源：网络整理

导读：http://blog.csdn.net/pipisorry/article/details/24143801 正则表达式正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。在提供了正则表达式的语言里，正则表达式的语法都

http://blog.csdn.net/pipisorry/article/details/24143801

正则表达式

正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。

使用正则表达式进行匹配的流程

正则表达式的大致匹配过程是

依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；

一旦有匹配不成功的字符则匹配失败。

如果表达式中有量词或边界，这个过程会稍微有一些不同。

皮皮Blog

Python支持的正则表达式元字符和语法

基于Python2.4，不过一般通用，无论是c,java,python3,mysql,还是linux， notepad++。

可参考[notepad++正则表达式使用][Java正则表达式小记][linux通配符和正则表达式][mysql语法、特殊符号及正则表达式的使用][正则表达式 - C语言]

python正则表达式中的其他特殊符号

cx	匹配由x指明的控制字符。例如，cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的「`c`」字符。
xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，「`x41`」匹配「`A`」。「`x041`」则等价于「`x04&1`」。正則表达式中可以使用ASCII编码。.
num	向后引用（back-reference）一个子字符串（substring），该子字符串与正则表达式的第num个用括号围起来的子表达式（subexpression）匹配。其中num是从1开始的正整数，其上限可能是99。例如：「`(.)1`」匹配两个连续的相同字符。
n	标识一个八进制转义值或一个向后引用。如果n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
nm	标识一个八进制转义值或一个向后引用。如果nm之前至少有nm个获得子表达式，则nm为向后引用。如果nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则nm将匹配八进制转义值nm。
nml	如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，u00A9匹配版权符号（?）。

皮皮Blog

正则表达式模式

数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式"ab*"如果用于查找"abbbc"，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。

Python中转义字符-反斜杠的困扰

与大多数编程语言相同，正则表达式里使用""作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符""，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r""表示。同样，匹配一个数字的"d"可以写成r"d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

Note:建议正则表达式使用时都使用原生字符串r''。

匹配模式

正则表达式提供了一些可用的匹配模式，比如忽略大小写、多行匹配等，这与Pattern类的工厂方法re.compile(pattern[,flags])联系紧密。

皮皮Blog

正则表达式使用示例

使用正则表达式对密码强度、Email 地址、身份证号码等信息的匹配验证

1 . 校验密码强度
密码的强度必须是包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间。
^(?=.*d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
2. 校验中文
字符串仅能是中文。
^[u4e00-u9fa5]{0,}$
3. 由数字、26个英文字母或下划线组成的字符串
^w+$
4. 校验E-Mail 地址
同密码一样，下面是E-mail地址合规性的正则检查语句。
[w!#$%&'*+/=?^_`{|}~-]+(?:.[w!#$%&'*+/=?^_`{|}~-]+)*@(?:[w](?:[w-]*[w])?.)+[w](?:[w-]*[w])?
5. 校验身份证号码
下面是身份证号码的正则校验。15 或 18位。
15位：
^[1-9]d{7}((0d)|(1[0-2]))(([0|1|2]d)|3[0-1])d{3}$
18位：
^[1-9]d{5}[1-9]d{3}((0d)|(1[0-2]))(([0|1|2]d)|3[0-1])d{3}([0-9]|X)$
6. 校验日期
“yyyy-mm-dd“ 格式的日期校验，已考虑平闰年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
7. 校验金额
金额校验，精确到2位小数。
^[0-9]+(.[0-9]{2})?$
8. 校验手机号
下面是国内 13、15、18开头的手机号正则表达式。（可根据目前国内收集号扩展前两位开头号码）
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])d{8}$
9. 判断IE的版本
IE目前还没被完全取代，很多页面还是需要做版本兼容，下面是IE版本检查的表达式。
^.*MSIE [5-8](?:.[0-9]+)?(?!.*Trident/[5-9].0).*$
10. 校验IP-v4地址
IP4 正则语句。
b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)b
11. 校验IP-v6地址
IP6 正则语句。
(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,6}:[0-9a-fA-F]{1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}(:[0-9a-fA-F]{1,3}|([0-9a-fA-F]{1,3}(:[0-9a-fA-F]{1,2}(:[0-9a-fA-F]{1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,6})|:((:[0-9a-fA-F]{1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]).){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9])|([0-9a-fA-F]{1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]))
12. 检查URL的前缀
应用开发中很多时候需要区分请求是HTTPS还是HTTP，通过下面的表达式可以取出一个url的前缀然后再逻辑判断。
if (!s.match(/^[a-zA-Z]+:///))
{
s = 'http://' + s;
}
13. 提取URL链接
下面的这个表达式可以筛选出一段文本中的URL。
^(f|ht){1}(tp|tps)://([w-]+.)+[w-]+(/[w- ./?%&=]*)?
14. 文件路径及扩展名校验
验证windows下文件路径和扩展名（下面的例子中为.txt文件）
^([a-zA-Z]:|\)$[^\]+$*[^/:*?"<>|]+.txt(l)?$
15. 提取Color Hex Codes
有时需要抽取网页中的颜色代码，可以使用下面的表达式。
^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
16. 提取网页图片
假若你想提取网页中所有图片信息，可以利用下面的表达式。
< *[img][^\>]*[src] *= *["']{0,1}([^"' >]*)
17. 提取页面超链接
提取html中的超链接。
(<as*(?!.*brel=)[^>]*)(href="https?://)((?!(?:(?:www.)?'.implode('|(?:www.)?',$follow_list).'))[^"]+)"((?!.*brel=)[^>]*)(?:[^>]*)>
18. 查找CSS属性
通过下面的表达式，可以搜索到相匹配的CSS属性。
^s*[a-zA-Z-]+s*[:]{1}s[a-zA-Z0-9s.#]+[;]{1}
19. 抽取注释
如果你需要移除HMTL中的注释，可以使用如下的表达式。

20. 匹配HTML标签
通过下面的表达式可以匹配出HTML中的标签属性。
</?w+((s+w+(s*=s*(?:".*?"|'.*?'|[^'">s]+))?)+s*|s*)/?>
[ 使用正则表达式对密码强度、Email 地址、身份证号码等信息的匹配验证]

利用正则表达式排除特定字符串

[ 利用正则表达式排除特定字符串]

python正则表达式re模块

[ python模块 - re模块]

皮皮Blog

正则表达式可视化

[regexper]

from:http://www.52php.cn/article/p-zjluktvg-bbo.html

ref:正则表达式

Python爬虫入门七之正则表达式

Python正则表达式指南

最全的常用正则表达式大全

Eigenstate : 正则表达式调试工具

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!