正则表达式是linux学习里面很重要的一部分内容,也算是一个难点,元字符多,组合方法也各种各样,每个人学习理解方法不一样,其中遇到的问题也各不相同,
学习正则表达式首先要会的是grep以及egrep命令的使用。
grep是Globalsearch Regular expression an Print out the line的缩写,是一种文本搜索的工具,可以根据用户指定的“模式(pattern)”对目标文本进行搜索过滤,显示出被“模式”匹配到的行。这里要
说的一点是,grep匹配到的是符合模式的一整行,例如一行中有2位数同时有3位数,模式中匹配的是2位数,这一行是会被匹配到的,
1
|
grep
[OPTIONS]PATTERN[FILE...]
|
option |
作用 |
-i |
匹配时忽略字符大小写 |
-o |
仅显示匹配到的内容 |
-v |
取反,显示没有匹配到的行 |
--color |
高亮显示匹配到的内容 |
-A# |
显示出匹配的行之后的下文#行 |
-B # |
显示出匹配的行之前的上文#行 |
-C # |
显示出匹配的行前后的#行 |
-E |
使用扩展的正则表达式,后面会有介绍 |
这只是一些常用的选项,具体使用过程中遇到,可以使用man命令查看
这仅仅是grep的简单用法,要想充分利用grep需要配合正则表达式。
正则表达式分为两类:
基本正则表达式
扩展正则表达式
基本正则表达式由能够实现不同功能的元字符组成,下面按照元字符不同的作用分别说明,为了方便看出匹配到的内容,我们先给grep一个别名,就是用上面的--color选项,能够高亮显示出匹配到的内容,匹配到的内容会以紫色显示。
字符匹配:用来对文本中的字符进行匹配的元字符
. |
匹配任意单个字符 |
[] |
匹配集合内的任意单个字符 |
[^] |
匹配集合外的任意单个字符 |
其中[]有几个特殊的表示方法
[0-9],[[:digit:]] |
集合内的任意单个数字 |
[a-z],[[:lower:]] |
集合内的任意单个小写字母 |
[A-Z],[[:upper:]] |
集合内的任意单个大写字母 |
[a-zA-Z],[[:alpha:]] |
集合内的任意单个字母 |
[[:space:]] |
单个空白字符 |
[a-zA-Z0-9],[[:alnum:]]] |
集合内的任意单个字母数字 |
[[:punct:]] |
集合内的任意单个特殊字符 |
. :匹配任意单个字符
aab,ab,acb等都可以匹配到,即为搜索xlblog.txt中含有“ab中间有一个任意字符”的行
[ ]:匹配指定集合中的任意单个字符;
[[:digit:]],[0-9]:匹配单个数字;
[[:lower:]],[a-z]:匹配单个小写字母;
[[:upper:]],[A-Z]:匹配单个大写字母;
[[:alpha:]],[a-zA-Z]:匹配单个字母;
[[:alnum:]],[0-9a-zA-Z]:匹配单个数字字母,两个都可以实现这个功能;
[[:space:]]:匹配单个空格,这一行因为有个空白字符,所以被匹配出来了,因为是空白字符,就不能高亮显示了;
[[:punct:]]:即标点符号;
[^]:匹配指定集合外的任意单个字符,匹配任意非数字字母的字符,@和空白字符被匹配到了;
次数匹配,用于对前面紧邻的单个字符所能够出现的次数做出限定;
* |
匹配其前面的字符任一次,即表示0次、1次或多次 |
? |
匹配其前面的字符0次或者一次 |
+ |
匹配其前面的字符出现至少1次 |
{m} |
匹配其前面的字符m次,这是准确到多少次的 |
{m,n} |
匹配其前面的字符至少m次,至多n次 |
*:匹配其前面的字符任一次,即表示0次、1次或多次;
*前面的字符a出现0次或者多次,而且其后紧跟字符b,所以ab,aab,aaaaab,bc等都可以匹配到,acb就不能匹配到,因为a与b之间不是相邻的。
?:匹配其前面的字符0次或者一次,这里要注意只有紫色的部分匹配到了,虽然前面有很多个a,但是因为ab匹配到了,所以整行显示出来了。
+:匹配其前面的字符出现至少1次;
{m}:匹配其前面的字符m次,这是准确到多少次;
{m,n}:匹配其前面的字符至少m次,至多n次;
ab,aab,aaab,aaaaaab像这样的都是可以匹配到的,对于aaaaab可能会有疑问,其实只是匹配到了aaab,因为aaab在aaaaaab这一行中,所以整行都显示出来了,紫色的部分是匹配到的内容。
那么“.*”代表什么呢?很明显,匹配任意单个字符,所有的字符都被匹配到了;
位置锚定:
|