加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

perl总结(3)

发布时间:2020-12-16 00:09:35 所属栏目:大数据 来源:网络整理
导读:七、正则表达式 ? ? ? ? 这次对perl的正则表达式做一个总结。 ? ? ? ?? 正则表达式是perl在文本处理时最为简洁方便的功能。可以迅速地查找/替换字符串,提取字符串中想要的部分做处理。一般都说正则表达式是一个描述模式(pattern)的字符串,而所谓模式,其实

七、正则表达式

? ? ? ? 这次对perl的正则表达式做一个总结。

? ? ? ??正则表达式是perl在文本处理时最为简洁方便的功能。可以迅速地查找/替换字符串,提取字符串中想要的部分做处理。一般都说正则表达式是一个描述模式(pattern)的字符串,而所谓模式,其实是我们需要寻找的特定的字符序列,由一对反斜杠包起来,例如/def/即模式def。


一、匹配操作符
? ? ? ??有两对匹配操作符=~和!~。

? ? ? ??=~检验匹配是否成功:$var?=~?/abc/;若在该字符串中找到了该模式(abc),则返回true,不匹配则返回false。!~则相反。
? ? ? ??一个小例子:
? ? ? ??if?($sentence?=~?/please/)?{
? ? ? ??? ? ? ??print?("Thank?you?for?being?polite!n");
? ? ? ??}
? ? ? ??else?{
? ? ? ??? ? ? ??print?("That?was?not?very?polite!n");
? ? ? ??}?


二、基本模式匹配知识
1、字符?+?
? ? ? ??+意味着一个或多个相同的字符(串),如:/ab+c/指abc、abbc、abbbc等。+在匹配字符的时候会尽可能匹配更多的相同字符,如/ad+/在字符串addddf中匹配的将是adddd,而不是ad或者add。
2、字符?[?]和[^]
? ? ? ??[?]中包含一组字符,在匹配时匹配其中的任一个,如/a[mnpqrst]c/将匹配a加m-t中的一个字符再加c的字符串。
它常与+联合使用:/a[bB]+c/匹配abc、aBc、abbc、aBbc、aBbBBBbc等。

? ? ? ??^表示除括号内之外的所有字符,如:/a[^bB]+c/匹配a加非b/B字符加c的字符串。
3、字符?*和??
? ? ? ??字符*用于匹配0个、1个或多个相同字符

? ? ? ??字符?匹配0个或1个该字符。

? ? ? ??例/ab*c/匹配ac、abc、abbbbc等;/ab?c/匹配ac或abc。

4、“.”字符?
? ? ? ??字符"."用于匹配除换行外的所有字符,最常与*一起使用。
5、转义字符?
? ? ? ??对于上述提到的+*?等具有特殊意义的字符,如果想在串中匹配包含其的模式,须在其前加斜线""。

? ? ? ??如:/*+/中*即表示字符*,//表示斜杆。

6、匹配指定数目的字符?
? ? ? ??之前提到的"*",".","?"字符都是匹配不确定量的字符,我们可以使用{}指定所匹配字符出现的次数。如:/ab{1,3}c/匹配a和c之间有1到3个b的字符串;/ab{3}c/匹配abbbc;/ab{3,}c/匹配不少于3个b在a和c之间的字符串。

7、特殊转义字符?
? ? ? ??perl里有一些特殊的转移字符,能用于快速简洁地表示一些字符,如下表所示。

转义字符

描述

范围

d

任意数字

[0-9]

D

除数字外的任意字符

[^0-9]

w

任意单词字符

[_0-9a-zA-Z]

W

任意非单词字符

[^_0-9a-zA-Z]

s

空白

[?rtnf]

S

非空白

[^?rtnf]

? ? ? ??例:/[da-z]/匹配任意数字或小写字母。
8、选择模式
? ? ? ??字符"|"用于指定两个或多个串中的一个用于匹配模式。如:/def|ghi/匹配defhi或deghi,要是想匹配def或者ghi怎么办呢,请加上括号,即/(def)|(ghi)/。

9、锚模式?

? ? ? ??这是perl正则表达式中一个很重要的东西,锚可以用来指定匹配的串在原带匹配串中的位置。具体的锚及其描述见下表:

描述

^?或?A

仅匹配串首

$?或?Z

仅匹配串尾

b

匹配单词边界

B

单词内部匹配

? ? ? ??例1:/^abc/只匹配以abc打头的字符串,/abc$/只匹配以abc结尾的字符串,结合起来的/^abc$/只匹配字符串abc。

? ? ? ??例2:检验变量名的类型:
? ? ? ??? ? ? ??if?($varname?=~?/^$[A-Za-z][_0-9a-zA-Z]*$/)?{
? ? ? ??? ? ? ??? ? ? ??print?("$varname?is?a?legal?scalar?variablen");
? ? ? ??? ? ? ??}?elsif?($varname?=~?/^@[A-Za-z][_0-9a-zA-Z]*$/)?{
? ? ? ??? ? ? ??? ? ? ??print?("$varname?is?a?legal?array?variablen");
? ? ? ??? ? ? ??}?elsif?($varname?=~?/^[A-Za-z][_0-9a-zA-Z]*$/)?{
? ? ? ??? ? ? ??? ? ? ??print?("$varname?is?a?legal?file?variablen");
? ? ? ??? ? ? ??}?else?{
? ? ? ??? ? ? ??? ? ? ??print?("I?don't?understand?what?$varname?is.n");
? ? ? ??? ? ? ??}
? ? ? ??例3:b在单词边界匹配:/bdef/匹配def和defghi等以def打头的单词,但不匹配abcdef。/defb/匹配def和abcdef等以def结尾的单词,但不匹配defghi,/babcb/只匹配字符串abc。注意:/babc/可匹配$abcghi,因为$并不被看作是单词的部分。
? ? ? ??例4:B在单词内部匹配:/Babc/匹配mabcdef等,但不匹配abc;/defB/匹配defghi等;/BdefB/匹配cdefg、abcdefghi等,但不匹配def,defghi,abcdef。
10、提取匹配的文本


三、模式匹配选项?

选项

描述

g

匹配所有可能的模式

i

忽略大小写

m

将串视为多行

o

只赋值一次

s

将串视为单行

x

忽略模式中的空白


1、匹配所有可能的模式(g选项)?
? ? ? ??@matches?=?"balata"?=~?/.a/g;?#?now?@matches?=?("ba",?"la",?"ta")
? ? ? ??匹配的循环:
? ? ? ??? ? ? ??while?("balata"?=~?/.a/g)?{
? ? ? ??? ? ? ??? ? ? ??$match?=?$&;
? ? ? ??? ? ? ??? ? ? ??print?("$matchn");
? ? ? ??? ? ? ??}
? ? ? ??结果为:
? ? ? ??? ? ? ??ba
? ? ? ??? ? ? ??la
? ? ? ??? ? ? ??ta
? ? ? ??当使用了选项g时,可用函数pos来控制下次匹配的偏移:
? ? ? ??? ? ? ??$offset?=?pos($string);
? ? ? ??? ? ? ??pos($string)?=?$newoffset;
2、忽略大小写(i选项)例?
? ? ? ??? ? ? ??/de/i?匹配de,dE,De和DE。
3、将字符串看作多行(m选项)?
? ? ? ??在此情况下,^符号匹配字符串的起始或新的一行的起始;$符号匹配任意行的末尾。
4、只执行一次变量替换例?
???$var?=?1;
???$line?=?<STDIN>;
???while?($var?<?10)?{?
?????$result?=?$line?=~?/$var/o;
?????$line?=?<STDIN>;?
?????$var++;
???}
? ? ? ??每次均匹配/1/。
5、将字符串看作单行例?
? ? ? ??/a.*bc/s匹配字符串axxxxx?nxxxxbc,但/a.*bc/则不匹配该字符串。
6、在模式中忽略空格?
? ? ? ??/d{2}?([W])?d{2}?1?d{2}/x等价于/d{2}([W])d{2}1d{2}/。


四、替换操作符?
? ? ? ??上面提到的都是匹配字符串的方法和方式,perl可以在匹配到相应的模式后对串进行处理,其中非常强大的就是替换操作符。其语法为s/pattern/replacement/,其效果为将字符串中与pattern匹配的部分换成replacement。如:
? ? ? ??? ? ? ??$string?=?"abc123def";
? ? ? ??? ? ? ??$string?=~?s/123/456/;?#?now?$string?=?"abc456def";
? ? ? ??? ? ? ??在替换部分可使用模式次序变量$n,如s/(d+)/[$1]/,但在替换部分不支持模式的特殊字符,如{},*,+等,如s/abc/[def]/将把abc替换为[def]。
? ? ? ??替换操作符的选项如下表:

选项

描述

g

改变模式中的所有匹配

i

忽略模式中的大小写

e

替换字符串作为表达式

m

将待匹配串视为多行

o

仅赋值一次

s

将待匹配串视为单行

x

忽略模式中的空白

注:e选项把替换部分的字符串看作表达式,在替换之前先计算其值,如:
?????$string?=?"0abc1";
?????$string?=~?s/[a-zA-Z]+/$&?x?2/e;?#?now?$string?=?"0abcabc1"


五、翻译操作符?
? ? ? ??翻译操作符是perl的另一种替换方式,语法如:tr/string1/string2/。同样,string2为替换部分,但其效果是把string1中的第一个字符替换为string2中的第一个字符,把string1中的第二个字符替换为string2中的第二个字符,依此类推。如:
? ? ? ??? ? ? ??$string?=?"abcdefghicba";
? ? ? ??? ? ? ??$string?=~?tr/abc/def/;?#?now?string?=?"defdefghifed"
? ? ? ??当string1比string2长时,其多余字符替换为string2的最后一个字符;当string1中同一个字符出现多次时,将使用第一个替换字符。
? ? ? ??翻译操作符的选项如下:

选项

描述

c

翻译所有未指定字符

d

删除所有指定字符

s

把多个相同的输出字符缩成一个

? ? ? ??如$string?=~?tr/d/?/c;把所有非数字字符替换为空格。$string?=~?tr/t?//d;删除tab和空格;??$string?=~?tr/0-9/?/cs;把数字间的其它字符替换为一个空格。


六、扩展模式匹配? PERL支持PERL4和标准UNIX模式匹配操作所没有的一些模式匹配能力。其语法为:(?<c>pattern),其中c是一个字符,pattern是起作用的模式或子模式。 1、不存贮括号内的匹配内容? 在PERL的模式中,括号内的子模式将存贮在内存中,此功能即取消存贮该括号内的匹配内容,如/(?:a|b|c)(d|e)f1/中的1表示已匹配的d或e,而不是a或b或c。 2、内嵌模式选项? 通常模式选项置于其后,有四个选项:i、m、s、x可以内嵌使用,语法为:/(?option)pattern/,等价于/pattern/option。 3、肯定的和否定的预见匹配 肯定的预见匹配语法为/pattern(?=string)/,其意义为匹配后面为string的模式,相反的,(?!string)意义为匹配后面非string的模式,如: $string?=?"25abc8"; $string?=~?/abc(?=[0-9])/;? $matched?=?$&;?#?$&为已匹配的模式,此处为abc,而不是abc8 4、模式注释? PERL5中可以在模式中用?#来加注释,如: if?($string?=~?/(?i)[a-z]{2,3}(?#?match?two?or?three?alphabetic?characters)/?{ ... }

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读