正则表达式
在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
起源 正则表达式[1]的“鼻祖”或许可一直追溯到科学家对人类神经系统工作原理的早期研究。美国新泽西州的WarrenMcCulloch和出生在美国底特律的WalterPitts这两位神经生理方面的科学家,研究出了一种用数学方式来描述神经网络的新方法,他们创新地将神经系统中的神经元描述成了小而简单的自动控制元,从而作出了一项伟大的工作革新。 在1956年,出生在被马克·吐温(MarkTwain)称为“美国最美丽的城市之一的”哈特福德市的一位名叫StephenKleene的数学科学家,他在WarrenMcCulloch和WalterPitts早期工作的基础之上,发表了一篇题目是《神经网事件的表示法》的论文,利用称之为正则集合的数学符号来描述此模型,引入了正则表达式的概念。正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式,因而采用了“正则表达式”这个术语。 之后一段时间,人们发现可以将这一工作成果应用于其他方面。KenThompson就把这一成果应用于计算搜索算法的一些早期研究,KenThompson是Unix的主要发明人,也就是大名鼎鼎的Unix之父。Unix之父将此符号系统引入编辑器QED,然后是Unix上的编辑器ed,并最终引入grep。JeffreyFriedl在其著作“MasteringRegularExpressions(2ndedition)/中文版译作:精通正则表达式,目前已出到第三版”中对此作了进一步阐述讲解,如果你希望更多了解正则表达式理论和历史,推荐你看看这本书。 自此以后,正则表达式被广泛地应用到各种UNIX或类似于UNIX的工具中,如大家熟知的Perl。Perl的正则表达式源自于HenrySpencer编写的regex,之后已演化成了pcre(Perl兼容正则表达式PerlCompatibleRegularExpressions),pcre是一个由PhilipHazel开发的、为很多现代工具所使用的库。正则表达式的第一个实用应用程序即为Unix中的qed编辑器。 然后,正则表达式在各种计算机语言或各种应用领域得到了广大的应用和发展,演变成为目前计算机技术森林中的一只形神美丽且声音动听的百灵鸟。 以上是关于正则表达式的起源和发展的历史描述,到目前正则表达式在基于文本的编辑器和搜索工具中依然占据这一个非常重要的地位。 在最近的六十年中,正则表达式逐渐从模糊而深奥的数学概念,发展成为在计算机各类工具和软件包应用中的主要功能。不仅仅众多UNIX工具支持正则表达式,近二十年来,在WINDOW的阵营下,正则表达式的思想和应用在大部分Windows开发者工具包中得到支持和嵌入应用!从正则式在MicrosoftVisualBasic6或MicrosoftVBScript到.NETFramework中的探索和发展,WINDOWS系列产品对正则表达式的支持发展到无与伦比的高度,目前几乎所有Microsoft开发者和所有.NET语言都可以使用正则表达式。如果你是一位接触计算机语言的工作者,那么你会在主流操作系统(*nix[Linux,Unix等]、Windows、HP、BeOS等)、目前主流的开发语言(PHP、C#、Java、C++、VB、Javascript、Ruby以及python等)、数以亿万计的各种应用软件中,都可以看到正则表达式优美的舞姿。 概念 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正则表达式和另一个字符串,我们可以达到如下的目的: 1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”); 2.可以通过正则表达式,从字符串中获取我们想要的特定部分。 正则表达式的特点是: 1.灵活性、逻辑性和功能性非常的强; 2.可以迅速地用极简单的方式达到字符串的复杂控制。 3.对于刚接触的人来说,比较晦涩难懂。 由于正则表达式主要应用对象是文本,因此它在各种场合都有应用,小到著名编辑器EditPlus,大到MicrosoftWord、VisualStudio等大型编辑器,都可以使用正则表达式来处理文本内容。
零宽断言 用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。最好还是拿例子来说明吧: (?=exp)也叫零宽度正预测先行断言[2],它断言自身出现的位置的后面能匹配表达式exp。比如bw+(?=ingb),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'msingingwhileyou'redancing.时,它会匹配sing和danc。 (?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=bre)w+b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找readingabook时,它匹配ading。 假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((?<=d)d{3})+b,用它对xxxxxxxxxx进行查找时结果是xxxxxxxxxx 下面这个例子同时使用了这两种断言:(?<=s)d+(?=s)匹配以空白符间隔的数字(再次强调,不包括这些空白符) 断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。 引擎介绍 正则引擎主要可以分为两大类:一种是DFA,一种是NFA。这两种引擎都有了很久的历史(至今二十多年),当中也由这两种引擎产生了很多变体!于是POSIX的出台产生规范了不必要变体的继续产生。这样一来,目前的主流正则引擎又分为3类:一、DFA,二、传统型NFA,三、POSIXNFA。 DFA引擎在线性时状态下执行,因为它们不要求回溯(并因此它们永远不测试相同的字符两次)。DFA引擎还可以确保匹配最长的可能的字符串。但是,因为DFA引擎只包含有限的状态,所以它不能匹配具有反向引用的模式;并且因为它不构造显示扩展,所以它不可以捕获子表达式。 传统的NFA引擎运行所谓的“贪婪的”匹配回溯算法,以指定顺序测试正则表达式的所有可能的扩展并接受第一个匹配项。因为传统的NFA构造正则表达式的特定扩展以获得成功的匹配,所以它可以捕获子表达式匹配和匹配的反向引用。但是,因为传统的NFA回溯,所以它可以访问完全相同的状态多次(如果通过不同的路径到达该状态)。因此,在最坏情况下,它的执行速度可能非常慢。因为传统的NFA接受它找到的第一个匹配,所以它还可能会导致其他(可能更长)匹配未被发现。 POSIXNFA引擎与传统的NFA引擎类似,不同的一点在于:在它们可以确保已找到了可能的最长的匹配之前,它们将继续回溯。因此,POSIXNFA引擎的速度慢于传统的NFA引擎;并且在使用POSIXNFA时,您恐怕不会愿意在更改回溯搜索的顺序的情况下来支持较短的匹配搜索,而非较长的匹配搜索。 目前使用DFA引擎的程序主要有:awk,egrep,flex,lex,MySQL,Procmail等; 使用传统型NFA引擎的程序主要有:GNUEmacs,Java,ergp,less,more,.NET语言,PCRElibrary,Perl,PHP,Python,Ruby,sed,vi; 使用POSIXNFA引擎的程序主要有:mawk,MorticeKernSystems’utilities,GNUEmacs(使用时可以明确指定); 也有使用DFA/NFA混合的引擎:GNUawk,GNUgrep/egrep,Tcl。 举例简单说明NFA与DFA工作的区别: 比如有字符串thisisyansen’sblog,正则表达式为/ya(msen|nsen|nsem)/(不要在乎表达式怎么样,这里只是为了说明引擎间的工作区别)。NFA工作方式如下,先在字符串中查找y然后匹配其后是否为a,如果是a则继续,查找其后是否为m如果不是则匹配其后是否为n(此时淘汰msen选择支)。然后继续看其后是否依次为s,e,接着测试是否为n,是n则匹配成功,不是则测试是否为m。为什么是m?因为NFA工作方式是以正则表达式为标准,反复测试字符串,这样同样一个字符串有可能被反复测试了很多次! 而DFA则不是如此,DFA会从this中t开始依次查找y,定位到y,已知其后为a,则查看表达式是否有a,此处正好有a。然后字符串a后为n,DFA依次测试表达式,此时msen不符合要求淘汰。nsen和nsem符合要求,然后DFA依次检查字符串,检测到sen中的n时只有nsen分支符合,则匹配成功! 由此可以看出来,两种引擎的工作方式完全不同,一个(NFA)以表达式为主导,一个(DFA)以文本为主导!一般而论,DFA引擎则搜索更快一些!但是NFA以表达式为主导,反而更容易操纵,因此一般程序员更偏爱NFA引擎!两种引擎各有所长,而真正的引用则取决与你的需要以及所使用的语言! 负向零宽 如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样: bw*q[^u]w*b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的w*b将会匹配下一个单词,于是bw*q[^u]w*b就能匹配整个Iraqfighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。现在,我们可以这样来解决这个问题:bw*q(?!u)w*b。 零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:d{3}(?!d)匹配三位数字,而且这三位数字的后面不能是数字;b((?!abc)w)+b匹配不包含连续字符串abc的单词。 同理,我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])d{7}匹配前面不是小写字母的七位数字。 请详细分析表达式(?<=<(w+)>).*(?=</1>),这个表达式最能表现零宽断言的真正用途。 一个更复杂的例子:(?<=<(w+)>).*(?=</1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(w+)>)指定了这样的前缀:被尖括号括起来的单词(比如可能是<b>),然后是.*(任意的字符串),最后是一个后缀(?=</1>)。注意后缀里的/,它用到了前面提过的字符转义;1则是一个反向引用,引用的正是捕获的第一组,前面的(w+)匹配的内容,这样如果前缀实际上是<b>的话,后缀就是</b>了。整个表达式匹配的是<b>和</b>之间的内容(再次提醒,不包括前缀和后缀本身)。 符号功能 (摘自《正则表达式之道》) 正则表达式由一些普通和一些元字符(metacharacters)组成。普通包括大小写的字母和数字,而则具有特殊的含义,我们下面会给予解释。 在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。例如,正则表达式"testing"中没有包含任何,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。 要想真正的用好正则表达式,正确的理解是最重要的事情。下表列出了所有的和对它们的一个简短的描述。
最简单的是点,它能够匹配任何单个字符(注意不包括换行符)。假定有个文件test.txt包含以下几行内容: heisarat heisinarut thefoodisRotten Ilikerootbeer 我们可以使用grep命令来测试我们的正则表达式,grep命令使用正则表达式去尝试匹配指定文件的每一行,并将至少有一处匹配表达式的所有行显示出来。命令 grepr.ttest.txt 在test.txt文件中的每一行中搜索正则表达式r.t,并打印输出匹配的行。正则表达式r.t匹配一个r接着任何一个字符再接着一个t。所以它将匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因为正则表达式是大小写敏感的。要想同时匹配大写和小写字母,应该使用区间(方括号)。正则表达式[Rr]能够同时匹配R和r。所以,要想匹配一个大写或者小写的r接着任何一个字符再接着一个t就要使用这个表达式:[Rr].t。 要想匹配行首的字符要使用抑扬字符(^)——有时也被叫做插入符。例如,想找到text.txt中行首"he"打头的行,你可能会先用简单表达式he,但是这会匹配第三行的the,所以要^he,它只匹配在行首出现的h。 有时候指定“除了×××都匹配”会比较容易达到目的,当抑扬字符(^)出现在方括号中时,它表示“排除”,例如要匹配he,但是排除前面是tors的情形(也就是the和she),可以使用:[^st]he。 可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母,包括大写和小写的;正则表达式[A-Za-z][A-Za-z]*匹配一个字母后面接着0或者多个字母(大写或者小写)。当然我们也可以用+做到同样的事情,也就是:[A-Za-z]+,和[A-Za-z][A-Za-z]*完全等价。但是要注意+并不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达式语法支持情况。 要指定特定数量的匹配,要使用大括号(注意必须使用反斜杠来转义)。想匹配所有10和100的实例而排除1和1000,可以使用:10{1,2},这个正则表达式匹配数字1后面跟着1或者2个0的模式。在这个的使用中一个有用的变化是忽略第二个数字,例如正则表达式0{3,}将匹配至少3个连续的0。 这里有一些有代表性的、比较简单的例子。 vi命令 |
作用 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
:%s/*//g | 把一个或者多个空格替换为一个空格 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
:%s/*$// | 去掉行尾的所有空格 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
:%s/^// | 在每一行头上加入一个空格 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
:%s/^[0-9][0-9]*// | 去掉行首的所有数字字符 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
:%s/b[aeio]g/bug/g | 将所有的bag、beg、big和bog改为bug。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
:%s/t([aou])g/h1t/g | 将所有tag、tog和tug分别改为hat、hot和hut(注意用group的用法和使用1引用前面被匹配的字符) |
例1
将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里a、b和c可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换:
之前之后
foo(10,7,2)foo(7,10,2)
foo(x+13,y-2,10)foo(y-2,x+13,10)
foo(bar(8),x+y+z,5)foo(x+y+z,bar(8),5)
下面这条替换命令能够实现这一魔法:
:%s/foo(([^,]*),([^,([^)]*))/foo(2,1,3)/g
例2
假设有一个CSV(commaseparatedvalue)文件,里面有一些我们需要的信息,但是格式却有问题,目前数据的列顺序是:姓名,公司名,州名缩写,邮政编码,现在我们希望讲这些数据重新组织,以便在我们的某个软件中使用,需要的格式为:姓名,州名缩写-邮政编码,公司名。也就是说,我们要调整列顺序,还要合并两个列来构成一个新列。另外,我们的软件不能接受逗号前后有任何空格(包括空格和制表符)所以我们还必须要去掉逗号前后的所有空格。
这里有几行我们现在的数据:
BillJones,HI-TEKCorporation,CA,95011
SharonLeeSmith,DesignWorksIncorporated,95012
B.Amos,HillStreetCafe,95013
AlexanderWeatherworth,TheCraftsStore,95014
...
我们希望把它变成这个样子:
我们将用两个正则表达式来解决这个问题。第一个移动列和合并列,第二个用来去掉空格。
下面就是第一个替换命令:
:%s/([^,(.*)/1,34,2/
这里的方法跟例1基本一样,第一个列(姓名)用这个表达式来匹配:([^,]*),即第一个逗号之前的所有字符,而姓名内容被用1标记下来。公司名和州名缩写字段用同样的方法标记为2和3,而最后一个字段用(.*)来匹配("匹配所有字符直到行末")。替换部分则引用上面标记的那些内容来进行构造。
下面这个替换命令则用来去除空格:
:%s/[t]*,[t]*/,/g
我们还是分解来看:[t]匹配空格/制表符,[t]*匹配0或多个空格/制表符,[t]*,匹配0或多个空格/制表符后面再加一个逗号,最后,[t]*,[t]*匹配0或多个空格/制表符接着一个逗号再接着0或多个空格/制表符。在替换部分,我们简单的我们找到的所有东西替换成一个逗号。这里我们使用了结尾的可选的g参数,这表示在每行中对所有匹配的串执行替换(而不是缺省的只替换第一个匹配串)。
例3
假设有一个多字符的片断重复出现,例如:
Billytriedreallyhard
Sallytriedreallyreallyhard
Timmytriedreallyreallyreallyhard
Johnnytriedreallyreallyreallyreallyhard
而你想把"really"、"reallyreally",以及任意数量连续出现的"really"字符串换成一个简单的"very"(simpleisgood!),那么以下命令:
:%s/(really)(really)*/very/
就会把上述的文本变成:
Billytriedveryhard
Sallytriedveryhard
Timmytriedveryhard
Johnnytriedveryhard
表达式(really)*匹配0或多个连续的"really"(注意结尾有个空格),而(really)(really)*匹配1个或多个连续的"really"实例。
常用的正则表达式主要有以下几种:
匹配中文字符的正则表达式:[u4e00-u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了哦
获取日期正则表达式:d{4}[年|-|.]d{1-12}[月|-|.]d{1-31}日?
评注:可用来匹配大多数年月日信息。
匹配双字节字符(包括汉字在内):[^x00-xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
匹配空白行的正则表达式:ns*r
评注:可以用来删除空白行
匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?</>|<.*?/>
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
匹配首尾空白字符的正则表达式:^s*|s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
评注:表单验证时很实用
匹配网址URL的正则表达式:[a-zA-z]+://[^s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
匹配国内电话号码:d{4}-d{7,8}|d{3}-d{8}
评注:匹配形式如0511-4405222或021-87888822
匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始
匹配中国邮政编码:[1-9]d{5}(?!d)
评注:中国邮政编码为6位数字
匹配身份证:d{17}[d|X]
评注:中国的身份证为15位或18位
匹配ip地址:((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)。
评注:提取ip地址时有用
匹配特定数字:
^[1-9]d*$ //匹配正整数
^-[1-9]d*$//匹配负整数
^-?[1-9]d*$ //匹配整数
^[1-9]d*|0$ //匹配非负整数(正整数+0)
^-[1-9]d*|0$ //匹配非正整数(负整数+0)
^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮点数
^-([1-9]d*.d*|0.d*[1-9]d*)$ //匹配负浮点数
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$ //匹配浮点数
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$ //匹配非负浮点数(正浮点数+0)
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$ //匹配非正浮点数(负浮点数+0)
评注:处理大量数据时有用,具体应用时注意修正
匹配特定字符串:
^[A-Za-z]+$ //匹配由26个英文字母组成的字符串
^[A-Z]+$ //匹配由26个英文字母的大写组成的字符串
^[a-z]+$ //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$ //匹配由数字和26个英文字母组成的字符串
^w+$ //匹配由数字、26个英文字母或者下划线组成的字符串
(编辑:李大同)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!