通配符 和 正则表达式 关系
1 概述通配符和正则表达式经常会引起混乱,本文两者之间的区别进行比较。 通配符用于匹配文件名,shell在做PathnameExpansion时用到的。通配符是由shell解析的,比如find,ls,cp,mv等命令支持通配符查找文件名。 正则表达式元字符有字符匹配、匹配次数、位置锚定、分组。主要是处理文本里的内容,用来匹配文本里的字符串,针对文件内容的文本过滤工具里,大都用到正则表达式,如grep,sed,awk,vim,less,nginx,varnish等命令支持正则表达式。 2 通配符2.1 常用通配符通配符是由shell处理的(不是由所涉及到命令语句处理的,其实我们在shell各个命令中也没有发现有这些通配符介绍),它只会出现在命令的“参数”里(它不用在命令名称里,也不用在操作符上)。当shell在“参数”中遇到了通配符时,shell会将其当作路径或文件名去在磁盘上搜寻可能的匹配:若符合要求的匹配存在,则进行替换(路径扩展);否则就将该通配符作为一个普通字符传递给“命令”,然后再由命令进行处理。 总之,通配符实际上就是一种shell实现的路径扩展功能。在通配符被处理后,shell会先完成该命令的重组,然后再继续处理重组后的命令,直至执行该命令。 shell提供转义符有三种转义符号,单引号,双引号,和反向斜杠,让通配符或者元字符变成普通字符,不需要使用特殊含义 需要说明的是:通配符看起来有点象正则表达式语句,但是它与正则表达式不同的,不能相互混淆。把通配符理解为shell特殊代号字符就可。 常用通配符,通配符的其他特殊字符,转义字符如下表格 图一 通配符符号集 2.1 通配符例子2.1.1 常用通配符例子1、显示/var目录下所有以l开头,以一个小写字母结尾,且中间出现至少一位数字的文件或目录 lll*[[:digit:]]*[[:lower:]] 2、显示/etc目录下以任意一位数字开头,且以非数字结尾的文件或目录 ll[[:digit:]]*[^[:digit:]] ll[0-9]*[^0-9] 3、显示/etc/目录下以非字母开头,后面跟了一个字母及其它任意长度任意字符的文件或目录 ll[^[:alpha:]][[:alpha:]]* 4、显示/etc/目录下所有以rc开头,并后面是0-6之间的数字,其它为任意字符的文件或目录 ls-drc[0-6]* 5、显示/etc目录下,所有以.d结尾的文件或目录 ls-d*.d 6、显示/etc目录下,所有.conf结尾,且以m,n,r,p开头的文件或目录 ls-ld[mnrp]*.conf//多了一个d参数后就会只显示文件夹,不显示文件夹里的信息 7、只显示/root下的隐藏文件和目录 ls-Ad.* ls-d.*[[:alnum:]] 8、只显示/etc下的非隐藏目录 ls-F|grep'/$' ls-l|grep'^d' 2.1.2 单引号和双引号单引号、双引号用于用户把带有空格的字符串赋值给变量事的分界符。 [root@localhostsh]#str="TodayisMonday" [root@localhostsh]#echo$str TodayisMonday 如果没有单引号或双引号,shell会把空格后的字符串解释为命令。 [root@localhostsh]#str=TodayisMonday bash:is:commandnotfound 单引号和双引号的区别。单引号告诉shell忽略所有特殊字符,而双引号忽略大多数,但不包括三个符号$(美元符号)、(反斜杠)、`(反向单引号)。 [root@localhostsh]#testvalue=100 [root@localhostsh]#echo'Thetestvalueis$testvalue' Thetestvalueis$testvalue [root@localhostsh]#echo"Thetestvalueis$testvalue" Thetestvalueis100 2.1.3 反向单引号 这里再说一下反向单引号,再键盘左上角,和波浪号一起的符号。 在Linux中起着命令替换的作用,命令替换是指shell能够将一个命令的标准输出插在一个命令行中任何位置。 如下,shell会执行反引号中的date命令,把结果插入到echo命令显示的内容中。 [root@localhostsh]#echoThedateis`date` The date is 2011年 03月 14日 星期一 21:15:43 CST 3 正则表达式3.1 常用正则表达式grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它们把所有的字母都看作单词,也就是说,正则表达式中的元字符表示回其自身的字面意义,不再特殊。linux使用GNU版本的grep。它功能更强,可以通过-G、-E、-F命令行选项来使用egrep和fgrep的功能。 grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到屏幕,不影响原文件内容。 grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。 图二 正则表达式符号集 3.2 例子 1、显示三个用户root、sunny、tom的UID和默认shell grep"^root&;|^sunny&;|^tom&;"/etc/passwd|cut-d:-f3,7 grep-E"^root&;|^sunny&;|^tom&;"/etc/passwd grep-E"^(root|sunny|tom)&;"/etc/passwd|cut-d:-f3,7 2、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号 grep-oE"^[[:alnum:]_]+()"/etc/rc.d/init.d/functions 3、使用egrep取出/etc/rc.d/init.d/functions中其基名 echo/etc/rc.d/init.d/functions|grep-oE"[^/]+/?$" 非/开头,最后是/可有可无,然后结尾,这个肯定是最后一个字段才是这样的情况 4、使用egrep取出上面路径的目录名 echo/etc/rc.d/init.d/functions/|grep-oE"^/.*/&;" 这道题不太清楚,最后一个位置锚定,/开头,/<这个是位置锚定,用/最后的位置锚定 5、统计last命令中以root登录的每个主机IP地址登录次数 last|grep^root|grep-oE"([0-9]{1,3}.){3}[0-9]{1,3}"|sort|uniq-c|sort-nr 6、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255 echo{0..255}|grep-oE"&;[0-9]&;"|tr"n"""//直接截取出对应数字在换成一行 echo{0..255}|grep-oE"&;[1-9][0-9]&;" echo{0..255}|grep-oE"&;1[0-9]{2}&;"//词尾不锚定也可以 echo{0..255}|grep-oE"&;2[0-4][0-9]&;" echo{0..255}|grep-oE"&;25[0-5]&;" 7、截取出ipv4地址 ifconfig|grep-oE"&;(([0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]).){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])&;" 8、显示ifconfig命令结果中所有IPv4地址 ifconfig|grep-oE"&;([0-9]{1,3}.){3}[0-9]{1,3}" 以下这个语句可以精确到每个位的范围 ifconfig|grep-oE"&;(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]).){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])&;" 注意这里的点号要加反斜杠进行转义。 9、将此字符串:welcome to magedu linux 中的每个字符去重并排序,重复次数多的排到前面 echo"welcometomagedulinux"|grep-oE[[:print:]]|sort|uniq-c|sort-r 4 区别对比 需要明确的是,通配符是用来匹配文件名,进行文件名的查找,而正则表达式是用来匹配文件里内容的,我们常用的grep命令,交给管道符之后使用grep已经不是匹配文件名了,这是对文件的操作,并不是匹配文件名。 不同点 图三 差别 相同点 图四 相同点 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |