正则表达式

发布时间：2020-12-14 06:09:40 所属栏目：百科来源：网络整理

导读：正则表达式（regular expression）是一种工具，一种广泛用于匹配字符串的工具。它用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+”描述的特征是“一个‘a‘和任意个‘b‘”，那么‘ab‘,‘abb‘,‘abbbbbbb

正则表达式（regular expression）是一种工具，一种广泛用于匹配字符串的工具。它用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+”描述的特征是“一个‘a‘和任意个‘b‘”，那么‘ab‘,‘abb‘,‘abbbbbbbbbb‘都符合这个特征。

在正式学习正则之前，你要牢记下面几个事项：

1.正则表达式本质上是一门语言，它不从属与 Python！Python 只是将他人写好的正则引擎集成到了语言内部，大多数编程语言都是这么干的！

2.正则表达式诞生的时间很长，应用非常广泛，是业界公认的字符串匹配工具。虽然有不同版本的内部引擎，但基本通用，也就是说，你在 Python 内写的正则表达式，可以移植到 Linux 的 shell，Java 语言等任何支持正则的场景中去。

3.正则表达式默认从左往右匹配。

4.正则表达式默认是贪婪模式。

5.正则表达式默认在匹配到了内容后，则终止匹配，不继续匹配。

6.对同一个问题，编写的正则表达式不是唯一的

一、普通字符

字母、数字、汉字、下划线、以及没有特殊定义的符号，都是"普通字符"。正则表达式中的普通字符，在匹配的时候，只匹配与自身相同的一个字符。

例如：表达式 c，在匹配字符串 abcde 时，匹配结果是：成功；匹配到的内容是 c；匹配到的位置开始于 2，结束于 3。（注：下标从 0 开始还是从 1 开始，因当前编程语言的不同而可能不同）

二、元字符

正则表达式中使用了很多元字符，用来表示一些特殊的含义或功能。

表达式	匹配
.	小数点可以匹配除了换行符n 以外的任意一个字符
\|	逻辑或操作符
[]	匹配字符集中的一个字符
[^]	对字符集求反，也就是上面的反操作。尖号必须在方括号里的最前面
-	定义[]里的一个字符区间，例如[a-z]
	对紧跟其后的一个字符进行转义
()	对表达式进行分组，将圆括号内的内容当做一个整体，并获得匹配的值

例如：

a.c 匹配 abc

(a|b)c 匹配 ac 与 bc

[abc]1 匹配 a1 或者 b1 或者 c1

使用方括号[]包含一系列字符，能够匹配其中任意一个字符。用[^]包含一系列字符，则能够匹配其中字符之外的任意一个字符。

[[email?protected]]匹配 a 或 b 或 5 或@

[^abc]匹配 a,b,c 之外的任意一个字符

[f-k]匹配 f~k 之间的任意一个字母

[^A-F0-3]匹配 A~F 以及 0~3 之外的任意一个字符

三、转义字符

一些无法书写或者具有特殊功能的字符，采用在前面加斜杠""进行转义的方法。例如下表所示：

表达式	匹配
r,n	匹配回车和换行符
t	匹配制表符
	匹配斜杠
^	匹配^符号
$	匹配$符号
.	匹配小数点.

尚未列出的还有问号？、星号*和括号等其他的符号。所有正则表达式中具有特殊含义的字符在匹配自身的时候，都要使用斜杠进行转义。这些转义字符的匹配方法与普通字符类似，也是匹配与之相同的一个字符。

例如表达式$d，在匹配字符串"abc$de"时，匹配结果是：成功；匹配到的内容是$d；匹配到的位置开始于 3，结束于 5。

四、预定义匹配字符集

正则表达式中的一些表示方法，可以同时匹配某个预定义字符集中的任意一个字符。比如，表达式d 可以匹配任意一个数字。虽然可以匹配其中任意字符，但是只能是一个，不是多个。如下表所示，注意大小写：

表达式	匹配
d	任意一个数字，0~9 中的任意一个
w	任意一个字母或数字或下划线，也就是 A~Z,a~z,0~9,_ 中的任意一个
s	空格、制表符、换页符等空白字符的其中任意一个
D	d 的反集，也就是非数字的任意一个字符，等同于[^d]
W	w 的反集，也就是[^w]
S	s 的反集，也就是[^s]

例如表达式dd，在匹配 abc123 时，匹配的结果是：成功；匹配到的内容是 12；匹配到的位置开始于 3，结束于 5。

五、重复匹配

前面的表达式，无论是只能匹配一种字符的表达式，还是可以匹配多种字符其中任意一个的表达式，都只能匹配一次。但是有时候我们需要对某个片段进行重复匹配，例如手机号码 13666666666，一般的新手可能会写成ddddddddddd（注意，这不是一个恰当的表达式），不但写着费劲，看着也累，还不一定准确恰当。这种情况可以使用表达式再加上修饰匹配次数的特殊符号{}，不用重复书写表达式就可以重复匹配。比如[abcd][abcd]可以写成[abcd]{2}。

表达式	匹配
{n}	表达式重复 n 次，比如d{2}相当于dd,a{3}相当于 aaa
{m,n}	表达式至少重复 m 次，最多重复 n 次。比如 ab{1,3}可以匹配 ab 或 abb 或abbb
{m,}	表达式至少重复 m 次，比如wd{2,}可以匹配 a12,_1111,M123 等等
?	匹配表达式 0 次或者 1 次，相当于{0,1}，比如 a[cd]?可以匹配 a,ac,ad
+	表达式至少出现 1 次，相当于{1,}，比如 a+b 可以匹配 ab,aab,aaab 等等
*	表达式出现 0 次到任意次，相当于{0,}，比如^*b 可以匹配 b,^^^b 等等

其中有些例子一定要注意！比如 ab{1,3}中重复的是 b 而不是 ab，(ab){1,3}这样重复的才是 ab。表达式^*b 中重复的是^而不是^，要从左往右读正则表达式，转义符号有更高的优先级，需要和后面的字符整体认读。表达式d+.?d*在匹配 It costs $12.5 时，匹配的结果是：成功；匹配到的内容是12.5；匹配到的位置开始于 10，结束于 14。表达式 go{2,8}gle 在匹配 Ads by goooooogle 时，匹配的结果是：成功；匹配到的内容是 goooooogle；匹配到的位置开始于 7，结束于 17。

六、位置匹配

有时候，我们对匹配出现的位置有要求，比如开头、结尾、单词之间等等。

表达式	匹配
^	在字符串开始的地方匹配，符号本身不匹配任何字符
$	在字符串结束的地方匹配，符号本身不匹配任何字符
b	匹配一个单词边界，也就是单词和空格之间的位置，符号本身不匹配任何字符
B	匹配非单词边界，即左右两边都是w 范围或者左右两边都不是w 范围时的字符缝隙

例如表达式^aaa 在匹配 xxx aaa xxx 时，匹配结果是：失败。因为^要求在字符串开始的地方匹配。

表达式 aaa$在匹配 xxx aaa xxx 时，匹配结果是：失败。因为$要求在字符串结束的地方匹配。

表达式.b.在匹配@@@abc 时，匹配结果是：成功；匹配到的内容是@a；匹配到的位置开始于 2，结束于 4。

表达式bendb 在匹配 weekend,endfor,end 时，匹配结果是：成功；匹配到的内容是end；匹配到的位置开始于 15，结束于 18。

七、常用正则表达式

下面是网络上收集的一些常用正则表达式，请参考使用。 PS:各位在复制粘贴的时候务必要小心前后多余的空格！

校验数字的相关表达式：

功能	表达式
数字	^[0-9]*$
n 位的数字	^d{n}$
至少 n 位的数字	^d{n,}$
m-n 位的数字	^d{m,n}$
零和非零开头的数字	^(0\|[1-9][0-9]*)$
非零开头的最多带两位小数的数字	^([1-9][0-9]*)+(.[0-9]{1,2})?$
带 1-2 位小数的正数或负数	^(-)?d+(.d{1,2})?$
正数、负数、和小数	^(-\|+)?d+(.d+)?$
有两位小数的正实数	^[0-9]+(.[0-9]{2})?$
有 1~3 位小数的正实数	^[0-9]+(.[0-9]{1,3})?$
非零的正整数	^[1-9]d*$
非零的负整数	^-[1-9]d*$
非负整数	^d+$
非正整数	^-[1-9]d*\|0$
非负浮点数	^d+(.d+)?$
非正浮点数	^((-d+(.d+)?)\|(0+(.0+)?))$
正浮点数	^[1-9]d.d\|0.d[1-9]d$
负浮点数	^-([1-9]d.d\|0.d[1-9]d)$
浮点数	^(-?d+)(.d+)?$

校验字符的相关表达式：

功能	表达式
汉字	^[u4e00-u9fa5]{0,}$
英文和数字	^[A-Za-z0-9]+$
长度为 3-20 的所有字符	^.{3,20}$
由 26 个英文字母组成的字符串	^[A-Za-z]+$
由 26 个大写英文字母组成的字符串	^[A-Z]+$
由 26 个小写英文字母组成的字符串	^[a-z]+$
由数字和 26 个英文字母组成的字符串	^[A-Za-z0-9]+$
由数字、26 个英文字母或者下划线组成的字符串	^w+$
中文、英文、数字包括下划线	^[u4E00-u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号	^[u4E00-u9FA5A-Za-z0-9]+$
可以输入含有^%&’,;=?$”等字符	[^%&’,;=?$x22]+
禁止输入含有~的字符	[^~x22]+

特殊场景的表达式:

功能	表达式
Email 地址	^w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*$
域名	[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetUR	[a-zA-z]+://[^s]* 或 ^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$
手机号码	^(13[0-9]\|14[5\|7]\|15[0\|1\|2\|3\|5\|6\|7\|8\|9]\|18[0\|1\|2\|3\|5\|6\|7\|8\|9])d{8}$
国内电话号码	d{3}-d{8}\|d{4}-d{7}(0511-4405222、021-87888822)
身份证号	^d{15}\|d{18}$(15 位、18 位数字)
短身份证号码	^([0-9]){7,18}(x\|X)?$ 或 ^d{8,18}\|[0-9x]{8,18}\|[0-9X]{8,18}?$(数字、字母 x 结尾)
帐号是否合法	^[a-zA-Z][a-zA-Z0-9_]{4,15}$(字母开头，允许 5-16 字节，允许字母数字下划线)
密码	^[a-zA-Z]w{5,17}$(以字母开头，长度在 6~18 之间，只能包含字母、数字和下划线)
强密码?	^(?=.d)(?=.[a-z])(?=.*[A-Z]).{8,10}$(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在 8-10 之间)
日期格式	^d{4}-d{1,2}-d{1,2}
一年的 12 个月(01～09和 1～12	^(0?[1-9]\|1[0-2])$
一个月的 31 天(01～09和 1～31)	^((0?[1-9])\|((1\|2)[0-9])\|30\|31)$
xml 文件	^([a-zA-Z]+-?)+[a-zA-Z0-9]+.[x\|X][m\|M][l\|L]$
双字节字符?	[^x00-xff](包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计 2，ASCII 字符计 1))
空白行的正则表达式	ns*r (可以用来删除空白行)
HTML 标记的正则表达式	<(S?)[^>]>.?</1>\|<.? />(对于复杂的嵌套标记依旧无能为力)
首尾空白字符的正则表达式	^s\|s$或(^s)\|(s$)(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等))
腾讯 QQ 号	[1-9][0-9]{4,} (腾讯 QQ 号从 10000 开始)
中国邮政编码	[1-9]d{5}(?!d) (中国邮政编码为 6 位数字)
IP 地址提取	d+.d+.d+.d+ (提取 IP 地址时有用)
IP 地址合法性判断	((?:(?:25[0-5]\|2[0-4]d\|[01]?d?d).){3}(?:25[0-5]\|2[0-4]d\|[01]?d?d))

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!