grep及正则表达式应用总结
相信学习任何Linux Release操作系统的人都知道“正则表达式、扩展正则表达式”的重要作用,学习好如何利用“正则表达式”来达到我们想要达到的效果,这需要大量的实践、总结。 下面是我针对“正则表达式、扩展正则表达式”的一些认识和理解,不会罗列命令,只说自己的经验,所以简单的命令说明我只是罗列含义(相信你能看明白),重要的知识点,通过grep命令演示并附图解释,希望对看到DaMiHua博客的你有所帮助。 一、什么是正则表达式?扩展正则表达式? 其实“正则表达式”就是处理字符串的一个标准或公式,你通过“正则表达式”去筛选你想要的字符串,就好像你拿着采购清单去市场采购,清单上面写着10把红木的椅子、一个dell的电脑……,你肯定是按照清单去筛选物品,直到采购完毕,那个清单的作用就好比“正则表达式”。 “扩展正则表达式”是正则表达式的增强版,其中最主要的提升在于提供了用或“|”的形式进行查找字符串。(你只要有个概念就可以,下面会用实例来演示其应用。) 二、正则表达式“元字符”(你可以这样理解:在“正则表达式”中有特殊意义的字符!)意义说明如下: <1>.:匹配任意单个字符 说明:无需过多解释,仅仅是一个点号。 <2>[]:匹配范围内的任意单个字符 说明:[字符集]只要在[]中的任意字符都需要匹配,比如:如果你要查找xac、xbc、xdc可以这样匹配x[abd]c,就是代表[]内提供的字符集合中的任意一个,[a-z]:代表26个小写字母中的1个,我想你应该明白了,还有很多特定含义的表示方法,如[[:alnum:]]:代表任何数字、字母中的1个字符……,想知道其它的字符集可以去Google,你懂的! <3>*:匹配前面的字符0次、或多次 说明:.*没错点号和星号的组合代表任意字符任意次! <4>?:前面的字符可有可无 说明:因为?有特殊意义,所以需要这个转义字符(什么是转义字符,Google吧!),ab?代表a或者ab。 <5>+:前面的字符至少出现1次 说明:和?一样,通过转义字符实现,ab+代表ab,abb…… <6>{m,n}:匹配前面的字符至少m次,至多n次 说明:ab{1,2}代表ab,abb。 <7>{n}:精确匹配前面的字符n次 说明:无需解释,一看就明白了。 <8>^:锚定行首,代表其后的字符必须出现在这行的行首,"^字符……" 说明:how areyou! What! 如果我只想找出以h开头的行,^h,满足你的要求。 <9>$:锚定行尾,代表其前的字符必须出现在这行的行尾,"……字符$" 说明:同上说明。 <10>&;:锚定词首,其后面的任意字符必须作为单词的首部出现 <11>&;:锚定词尾,其前面的任意字符必须作为单词的尾部出现 说明:锚定词首和词尾,一并解释,单词就是非特殊符号组成的连续的字符串,这个单词的概念很重要,这个我会通过下面的实例结合说明,我认为这是一个难点。 <12>():后向引用,把()中的内容作为一个整体去匹配,可以通过1来代表第一个左括号与之对应的右括号所包括的内容,2代表第二个左括号与之对应的右括号所包括的内容,3…… 说明:这个也是一个不好理解的地方,我会通过实例结合说明。 <14>[^字符集]:[^a-z]不选择小写字母,意思就是取反。 3、扩展正则表达式“元字符”如下 <1>.:匹配任意单个字符 <2>[]:匹配范围内的任意单个字符 <3>*:匹配前面的字符0次、或多次 <4>?:前面的字符可有可无 <5>+:前面的字符至少出现1次 <6>{m,n}:匹配前面的字符至少m次,至多n次 <7>{n}:精确匹配前面的字符n次 <8>^:锚定行首,代表其后的字符必须出现在这行的行首,"^字符……" <9>$:锚定行尾,代表其前的字符必须出现在这行的行尾,"……字符$" <10>&;:锚定词首,其后面的任意字符必须作为单词的首部出现 <11>&;:锚定词尾,其前面的任意字符必须作为单词的尾部出现 <12>():后向引用,把()中的内容作为一个整体去匹配,可以通过1来代表第一个左括号与之对应的右括号所包括的内容,2代表第二个左括号与之对应的右括号所包括的内容,3…… <13>[^字符集]:[^a-z]不选择小写字母,意思就是取反。 <14>|:代表“或”,下面的实例会详细说明它的用法。 三、有了筛选标准还要有筛选工具,也就是处理字符串的工具,grep/awk/sed被誉为在Linux中处理字符串的“三驾马车”,以grep为例,下面是说明: <1>首先介绍一下grep的基本使用方法: grep [OPTIONS] PATTERN[FILE...] [OPTIONS] --color=auto/always/never:用颜色显示匹配到的字符串(非常好用的功能,捕获的字符串 带有颜色显示。) -o:只显示匹配到的字符串 -i:忽略大小写 -v:显示不能被模式匹配到的行 -E:使用扩展的正则表达式,还可以使用egrep代替grep -e -A #:匹配到的行和之后的#行 -B #:匹配到的行和之前的#行 -C #:匹配到的行和前后各#行 PATTERN:文本字符和正则表达式的元字符组成的匹配条件。 <2>grep和egrep工作在贪婪模式,也就是最长匹配原则,如果你的搜索条件是a.*b(意思是找a中间是任意字符b结束的字符串,你应该懂的)搜索的字符串是abxxxxbssdebxx匹配的结果应该是abxxxxbssdeb。 四、以下的实例是我在学习正则表达式时候经常出现的问题,汇总说明如下: <1>不理解或“|”的用法,不理解词首、词尾的锚定。我想要查找/etc/passwd中含有fedora或者root或者user1这三个单词的行,请体会我下面的两段代码查找模式。 图1 说明:也许你已经看出来了,图1这段代码是错的,因为xuser1、fedoraaca和/root(中的root这个字符串)都已经查找出来了,其实这段代码的意思是查找以fedora为词首的单词或者root这个字符串或者以user1为词尾的单词,这不是我想要的结果,图2是正确的代码,仔细体会一下,分组中的数据作为一个整体,配合在锚定词首和词尾,查找完整的单词。 图2 <2>图3的代码,充分利用egrep的贪婪模式取出路径的目录名(/etc/passwd,/etc/就是目录名,查找路径名的命令是dirname,查找基名的命令是basename,可以man一下其用法)。 图3 说明:.*/不管你有多少个目录分隔符/,我只提取最后一个,找出目录名,另外代码的含义,看看就应该明白。 <3>利用字符集、词首词尾锚定,定义合理的IP地址,这道题也是需要充分理解什么是锚定词首、词尾,并结合“|”或应用的一道题。 图4 <4>图5是分组引用的利用,找出/etc/passwd中以一个单词开头并以相同单词结尾的行,我已经做了alias grep=grep ?color=auto,所以你看到的筛选结果会有颜色。 图5 说明:相信你已经看明白了其中的含义。 总结:如果你和我一样也是一个刚刚踏入Linux奇妙世界的人来说,应该花时间去真正理解这些正则表达式中“元字符”的意义,他们就好像阿拉伯数字一样,组合的形式多种多样,所以数学才那么深奥,如果没有理解这些“元字符”的意义,盲目的写模式,你会浪费很多时间和精力。 以上的内容其实是针对那些有一些正则表达式基础的“战友”看的,我觉得网上的内容只是解惑,给你某些方面的灵感,想要弄懂正则表达式或者grep的用法,只有找一本详细的资料,塌心学习,如果你根本没用过正则表达式,那你很难完全明白以上的内容。 我只是用我的语言描述了自己理解的正则表达式,如果有需要交流的“战友”可以留名(本人qq:865765761)!共同学习Linux。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |