正则表达式 简单入门
本文旨在介绍正则表达式最最基础的部分便于不知道的读者对正则表达式产生一个概念,科普一下(不一定能入门)。
什么是正则表达式?
正则表达式,就是用来描述一个字符串结构的方法,和我们使用的通配符比较类似,但是又不一样,可以说更强大。正则表达式主要用来在字符串中搜索、替换、定位文本。
正则表达式可以干什么?
前面提到正则表达式能用来搜索和替换,我们就想到了文本编辑器。确实,目前很多文本编辑器都集成了正则表达式搜索匹配和替换的功能,比如常用的
Notepad++
有了正则表达式,我们可以很方便地实现一些功能,比如我们有一个
txt
文件
我们想把空格分隔变成逗号分隔,有同学说,直接将空格替换成逗号就可以了,但是试过之后,结果如下:
但是使用正则表达式进行替换,结果才是我们想要的:
Notepad++
有个
RegEx Helper
插件可以帮助我们学习正则表达式。
我们经常使用的Windows
搜索工具
everything
(在
Search -> Enable Regex
),以及
Linux
的
grep
工具都支持正则表达式
在
Everything
中搜索文件名”包含
a
并接着两个数字的”文件:
使用grep
过滤文件名结尾为一个数字的文件:
另外,很多编程语言都支持正则表达式,比如
Java
,
C#
,
Python
,
Perl
之类的,尤其是
Perl
,已经将其集成到语法里面。我们可以在编程语言中很方便的用它来处理文本,比如检查
email
或者手机号格式,在抓取的网页中匹配需要的数据等等。
正则表达式有哪些内容?
学习正则表达式主要需要掌握以下几个概念(不一定全):
元字符
字符转义
锚点
零宽断言
反向引用
选项
这里简单讲一下元字符,其他读者自己有兴趣再自己去学习。
字符串的开始可以用
^
指定,结束用
$
,所以匹配全数字的字符串可以用
^[0-9]$
,其中中括号表示是其中一个,
0-9
是
0123456789
的简写,也可以写成
d
,不过可能有些地方不支持。
按照上面的表格,如果我们需要匹配一个全数字的单词,可以用 bd+b
一些复杂的正则表达式(网上抄来的,可以借鉴一下)
匹配首尾空白字符的正则表达式:^s*|s*$ 匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 匹配网址URL的正则表达式:[a-zA-z]+://[^s]* 匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 匹配国内电话号码:d{3}-d{8}|d{4}-d{7} 匹配腾讯QQ号:[1-9][0-9]{4,} 匹配中国邮政编码:[1-9]d{5}(?!d) 匹配身份证:d{15}|d{18} 匹配ip地址:d+.d+.d+.d+
如何进一步学习?
1. http://deerchao.net/tutorials/regex/regex-1.htm
2. 《正则表达式之道》
3. 《
Mastering Regular Expressions
(精通正则表达式)》
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |