加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

最后一天凑一篇(关于正则表达式)

发布时间:2020-12-14 04:19:00 所属栏目:百科 来源:网络整理
导读:写了这么多东西发现正则表达式用的地方还真不少,比如检测用户输入格式,爬虫匹配html等。 所以最近又看了看正则表达式,话说其实内容倒是不是特别多,但是很恶心也是, 首先记录一下正则表达式的几个基本语法(复杂的先不记录了): ··· 表1.常用的元字

写了这么多东西发现正则表达式用的地方还真不少,比如检测用户输入格式,爬虫匹配html等。
所以最近又看了看正则表达式,话说其实内容倒是不是特别多,但是很恶心也是,
首先记录一下正则表达式的几个基本语法(复杂的先不记录了):
···
表1.常用的元字符
. 匹配除换行符以外的任意字符
w 匹配字母或数字或下划线或汉字
s 匹配任意的空白符
d 匹配数字
b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

表2.常用的限定符
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

表3.常用的反义代码
W 匹配任意不是字母,数字,下划线,汉字的字符
S 匹配任意不是空白符的字符
D 匹配任意非数字的字符
B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

···
下面记录一下平时用的比较多的正则表达式:
···
网址(URL):[a-zA-z]+://[^s]+
IP地址(IP Address):((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)
电子邮件(Email):w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*
密码(由数字/大写字母/小写字母/标点符号组成,四种都必有,8位以上):(?=^.{8,} )(?=.?d)(?=.?W+)(?=.?[A?Z])(?=.?[a?z])(?!.?n).?
日期(年-月-日):(d{4}|d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9]))
日期(月/日/年):((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(d{4}|d{2})
时间(小时:分钟,24小时制):((1|0?)[0-9]|2[0-3]):([0-5][0-9])
汉字(字符):[u4e00-u9fa5]
中文及全角标点符号(字符):[u3000-u301eufe10-ufe19ufe30-ufe44ufe50-ufe6buff01-uffee]
中国大陆固定电话号码: (d{4}-|d{3}-)?(d{8}|d{7})
中国大陆手机号码:1d{10}
中国大陆邮政编码:[1-9]d{5}
中国大陆身份证号(15位或18位):d{15}(dd[0-9xX])?
小数:(-?d+)(.d+)?
不包含abc的单词:b((?!abc)w)+b

···

附带说明:使用PHP的preg_match方法中的正则表达式一般使用/ 为定界符。

最后,介绍一个方便写爬虫的PHP的第三方类库式的文件:PHPQuery

可以很方便的获取Dom并操作Dom,用法的话可以参看上面的类库的地址中的 demo文件

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读