通配符与正则表达式

发布时间：2020-12-13 23:06:39 所属栏目：百科来源：网络整理

导读：网友看法： (总结精辟!) 通配符是系统level的而正则表达式需要相关工具的支持: egrep,awk,vi,perl。在文本过滤工具里，都是用正则表达式，比如像awk，sed等，是针对文件的内容的。通配符多用在文件名上，比如查找find，ls，cp，等等。通配符在您日常的

网友看法： (总结精辟!)

通配符是系统level的而正则表达式需要相关工具的支持: egrep,awk,vi,perl。

在文本过滤工具里，都是用正则表达式，比如像awk，sed等，是针对文件的内容的。
通配符多用在文件名上，比如查找find，ls，cp，等等。

通配符

在您日常的 Linux 使用中，有很多时候您可能需要一次对多个文件系统对象执行单一操作（比如 rm）。在这些情况下，在命令行中输入许多文件通常让人感到厌烦：
$ rm file1 file2 file3 file4 file5 file6 file7 file8
为了解决这个问题，您可以利用 Linux 内置的通配符支持。这种支持也叫做“globbing”（由于历史原因），允许您通过使用通配符模式一次指定多个文件。Bash 和其它 Linux 命令将通过在磁盘上查找并找到任何与之匹配的文件来解释这种模式。因此，如果在当前工作目录中，您有从 file1 到 file8 的文件，那么您可以输入下面的命令来删除这些文件：
$ rm file[1-8]
或者，如果您只想要删除文件名以 file 开头的所有文件，您可以输入：
$ rm file*
或者，如果您想要列出 /etc 中以 g 开头的所有文件系统对象，您可以输入：
$ ls -d /etc/g*
/etc/gconf /etc/ggi /etc/gimp /etc/gnome /etc/gnome-vfs-mime-magic /etc/gpm /etc/group /etc/group-
现在，如果您指定了没有任何文件系统对象与之匹配的模式，会怎么样呢？在下面的示例中，我们试图列出 /usr/bin 中以 asdf 开头并且以 jkl 结尾的所有文件：
$ ls -d /usr/bin/asdf*jkl
ls: /usr/bin/asdf*jkl: No such file or directory
这里是对所发生情况的说明。通常，当我们指定一种模式时，该模式与底层系统上的一个或多个文件匹配，bash 以空格隔开的所有匹配对象的列表来替换该模式。但是，当模式不能找到匹配对象时，bash 将不理会参数、通配符等等，保留原样。因此，当“ls”不能找到文件 /usr/bin/asdf*jkl 时，它会报错。此处的有效的规则是：glob 模式只在与文件系统中的对象匹配时才可以进行扩展。

通配符语法：*
* 将与零个或多个字符匹配。这就是说“什么都可以”。例子：
* /etc/g* 与 /etc 中以 g 开头的所有文件匹配。
* /tmp/my*1 与 /tmp 中以 my 开头，并且以 1 结尾的所有文件匹配。

通配符语法：?
? 与任何单个字符匹配。例子：
* myfile? 与文件名为 myfile 后跟单个字符的任何文件匹配。
* /tmp/notes?txt 将与 /tmp/notes.txt 和 /tmp/notes_txt 都匹配，如果它们存在。

通配符语法：[]
该通配符与 ? 相似，但允许指定得更确切。要使用该通配符，把您想要匹配的所有字符放在 [] 内。结果的表达式将与 [] 中任一字符相匹配。您也可以用 - 来指定范围，甚至还可以组合范围。例子：
* myfile[12] 将与 myfile1 和 myfile2 匹配。只要当前目录中至少有一个这样的文件存在，该通配符就可以进行扩展。
* [Cc]hange[Ll]og 将与 Changelog、ChangeLog、changeLog 以及 changelog 匹配。您可以看到，与大写形式的变形匹配时，使用括弧通配符很有用。
* ls /etc/[0-9]* 将列出 /etc 中以数字开头的所有文件。
* ls /tmp/[A-Za-z]* 将列出 /tmp 中以大写字母或小写字母开头的所有文件。

通配符语法：[!]
除了不与括弧中的任何字符匹配外，[!] 构造与 [] 构造类似，只要不是列在 [! 和 ] 之间的字符，它将与任何字符匹配。例子：
* rm myfile[!9] 将删除除 myfile9 之外的名为 myfile 加一个字符的所有文件。

通配符告诫说明
这里有一些使用通配符时应该注意的告诫说明。由于 bash 对与通配符相关的字符（?、[、]、*）进行特别处理，因此您将包含这些字符的参数输入到命令中时，需要特别小心。例如，如果您想要创建一个包含字符串 [fo]* 的文件，下面这个命令可能不会执行您想要做的事：
$ echo [fo]* > /tmp/mynewfile.txt
如果 [fo]* 这个模式与当前工作目录中的任何文件匹配，那么您将在 /tmp/mynewfile.txt 内发现那些文件的名称，而不是您所期望的文字 [fo]*。解决方法是什么呢？嗯，一种方法是用单引号把这些字符括起来，这将告诉 bash 单纯地执行，而不会对其进行通配符扩展：
$ echo '[fo]*' > /tmp/mynewfile.txt
采用这种方法，您的新文件将包含所期望的文字的 [fo]*。另一种方法是，您可以使用反斜杠，告诉 bash [、] 和 * 应该被当成文字处理，而不是被当成通配符处理：
$ echo /[fo/]/* > /tmp/mynewfile.txt
两种方法都能同样地起作用。既然我们谈到反斜杠扩展，那么现在是时候提一提了，为了指定文字 /，您可以将它放入单引号中，或者也可以输入 //（它将被扩展为 /）。
请注意双引号的作用和单引号很接近，而双引号还允许 bash 做一些有限的扩展。因此，当您确实想要把文字文本传给命令时，单引号是最好的选择。要获取关于通配符扩展更多的信息，请输入 man 7 glob。要获取关于 bash 中引号作用的更多信息，请输入 man 8 glob，并阅读题为 QUOTING 的章节。

这里好像有点错误，我的实验如下：

[root@centos-fuwenchao tmp]# ll
total 136
drwx------. 2 root root 4096 Feb 18 16:04 keyring-21b9iS
drwx------. 2 gdm  gdm  4096 May 10 13:41 orbit-gdm
drwx------. 2 root root 4096 May 10 13:42 orbit-root
drwx------. 2 gdm  gdm  4096 May 10 13:41 pulse-GrES9X7ORnMg
drwx------. 2 root root 4096 May 10 13:41 pulse-UtD3unIJ0Ksk
drwx------. 2 root root 4096 May 10 13:41 virtual-root.GJPEY4
drwx------. 2 root root 4096 Mar  8 14:34 virtual-root.sdAE7y
drwx------. 2 root root 4096 Mar 11 19:28 virtual-root.zCpkKa
[root@centos-fuwenchao tmp]# echo [vo]*
orbit-gdm orbit-root virtual-root.GJPEY4 virtual-root.sdAE7y virtual-root.zCpkKa
[root@centos-fuwenchao tmp]# echo [vo]*
[vo]*
[root@centos-fuwenchao tmp]# echo /[vo/]*
/[vo/]*
[root@centos-fuwenchao tmp]# echo [vo]*
[vo]*
[root@centos-fuwenchao tmp]#

正则表达式

1、什么是正则表达式？
正则表达式（也称为“regex”或“regexp”）是一种用来描述文本模式的特殊语法。在 Linux 系统上，正则表达式通常被用来查找文本的模式，以及对文本流执行“搜索-替换”操作以及其它功能。

2、与 glob 的比较

当我们看到正则表达式时，您可能发现正则表达式的语法看起来与我们上一篇教程（请参阅本教程最后的“参考资料”一节中列出的“第 1 部分”）中研究的“文件名匹配替换”语法相类似。但是，不要让它欺骗您；它们的类似性只是表面的。虽然正则表达式和文件名匹配替换模式可能看上去相类似，但是它们是根本不同的两种类型。

3、简单子串

记住那个警告，让我们看一下最基本的正则表达式，简单子串。为了这样做，我们要使用 grep，它是一个扫描文件内容来查找适合特定正则表达式的命令。grep 打印与正则表达式匹配的每一行，并忽略与之不匹配的每一行：
$ grep bash /etc/passwd
operator:x:11:0:operator:/root:/bin/bash
root:x:0:0::/root:/bin/bash
ftp:x:40:1::/home/ftp:/bin/bash
在上面的命令中，grep 的第一个参数是一个正则表达式；第二个参数是一个文件名。grep 读取 /etc/passwd 中的每一行并对它应用简单子串正则表达式 bash 来查找匹配项。如果找到一个匹配项，那么 grep 打印出整行；否则，忽略该行。

4、理解简单子串

一般来说，如果您正在搜索一个子串，那么您可以不提供任何“特殊”字符，而只是逐字地指定文本。只有在子串包含 +、.、*、[、] 或 /（在这样的情况下，这些字符需要用引号括起来并在它们的前面使用反斜杠）才需要做特殊的事情。下面是简单子串正则表达式几个其它示例：
* /tmp （扫描查找文字串 /tmp）
* “/[box/]”（扫描查找文字串 [box]）
* “/*funny/*”（扫描查找文字串 *funny*）
* “ld/.so”（扫描查找文字串 ld.so）

[root@centos-fuwenchao tmp]# grep /bin/bash /etc/passwd
root:x:0:0:root:/root:/bin/bash
mysql:x:27:27:MySQL Server:/var/lib/mysql:/bin/bash
userwenchao:x:501:501::/home/userwenchao:/bin/bash
testuser:x:502:503::/home/testuser:/bin/bash
oracle:x:503:506::/home/oracle:/bin/bash
[root@centos-fuwenchao tmp]# echo /[box/]
/[box/]
[root@centos-fuwenchao tmp]# echo [box]
[box]
[root@centos-fuwenchao tmp]# echo "[box]"
[box]
[root@centos-fuwenchao tmp]# echo [box]
[box]
[root@centos-fuwenchao tmp]# echo [box]*
orbit-gdm orbit-root
[root@centos-fuwenchao tmp]#

5、元字符
使用正则表达式，可以利用元字符来执行比我们至今已研究过的示例复杂得多的搜索。这些元字符中的一个是 .（点），它与任何单个字符匹配：
$ grep dev.hda /etc/fstab
/dev/hda3 / reiserfs noatime,ro 1 1
/dev/hda1 /boot reiserfs noauto,noatime,notail 1 2
/dev/hda2 swap swap sw 0 0
#/dev/hda4 /mnt/extra reiserfs noatime,rw 1 1
在本示例中，文字文本 dev.hda 没有出现在 /etc/fstab 中的任何一行中。但是，grep 扫描这些行时没有查找文字 dev.hda 字符串，而是查找 dev.hda 模式。请记住 . 将与任何单个字符相匹配。正如您看到的，. 元字符在功能上等价于 glob 扩展中 ? 元字符的工作原理。

6、使用 []
如果我们希望与比 . 更具体一点地来匹配字符，那么我们可以使用 [ 和 ]（方括号）来指定要匹配的字符子集：
$ grep dev.hda[12] /etc/fstab
/dev/hda1 /boot reiserfs noauto,notail 1 2
/dev/hda2 swap swap sw 0 0
正如您看到的，这个特殊语法的作用与“glob”文件名扩展中的 [] 相同。同样，这是学习正则表达式的难点之一 — 这个语法与“glob ”文件名扩展语法类似，但又不尽相同，它经常给学习正则表达式的人带来困惑。

7、使用 [^]
通过使 [ 后面紧跟一个 ^，您可以使方括号中的意思相反。在本例中，方括号将与未列在方括号内的任意字符匹配。同样，请注意我们在正则表达式中使用 [^] ，而在 glob 中使用 [!] ：
$ grep dev.hda[^12] /etc/fstab
/dev/hda3 / reiserfs noatime,ro 1 1
#/dev/hda4 /mnt/extra reiserfs noatime,rw 1 1

8、区别语法
注意下面一点很重要：方括号内部的语法根本不同于正则表达式其它部分中的语法。例如，如果在方括号内放置一个 . ，那么它允许方括号与文字 . 匹配，就象上面示例中的 1 和 2。比较起来，除非有 / 作为前缀，否则方括号外面的文字 . 被解释为一个元字符。通过输入如下命令，我们可以利用这一事实来打印 /etc/fstab 中包含文字串 dev.hda 的所有行的列表：
$ grep dev[.]hda /etc/fstab
或者，我们也可以输入：
$ grep "dev/.hda" /etc/fstab（作者好像没分清正斜杠和反斜杠还是我没弄清楚呀）
这两个正则表达式都不可能与您的 /etc/fstab 文件中的任何行相匹配。

9、“*”元字符
某些元字符本身不匹配任何字符，但却修改前一个字符的含义。一个这样的元字符是 * （星号），它用来与前一个字符的零次或者多次重复出现相匹配。这里是一些示例：
* ab*c（与 abbbbc 匹配但不与 abqc 匹配）
* ab*c（与 abc 匹配但不与 abbqbbc 匹配）
* ab*c（与 ac 匹配但不与 cba 匹配）
* b[cq]*e（与 bqe 匹配但不与 eb 匹配）
* b[cq]*e（与 bccqqe 匹配但不与 bccc 匹配）
* b[cq]*e（与 bqqcce 匹配但不与 cqe 匹配）
* b[cq]*e（与 bbbeee 匹配）
* .*（与任何字符串匹配）
* foo.*（与以 foo 开始的任何字符串相匹配）
ac 行与正则表达式 ab*c 相匹配，因为星号也允许前面的表达式（b）出现零次。请注意解释 * 正则表达式元字符所用的方法与解释 * glob 字符的方法根本不同。

10、行的开始和结束
我们在这里要详细描述的最后几个元字符是 ^ 和 $ 元字符，它们用来分别与行的开始和结束相匹配。通过在正则表达式开始处使用一个 ^ ，您可以将您的模式“锚定”在行的开始。在下面的示例中，我们使用 ^# 正则表达式来与以 # 字符开始的任何行相匹配：
$ grep ^# /etc/fstab
# /etc/fstab: static file system information.
#

11、完整行正则表达式
可以组合 ^ 和 $ 来与完整的行相匹配。例如，下面的正则表达式将与以 # 字符开始并以 . 字符结束的行相匹配，在其中间可以有任意多个其它字符：
$ grep '^#.*/.$' /etc/fstab
# /etc/fstab: static file system information.
在上面的示例中，我们用单引号将我们的正则表达式括起来以阻止 shell 解释 $ 。在不使用单引号的情况下，grep 甚至没有机会查看 $，$ 就从我们的正则表达式上消失了。

[root@centos-fuwenchao tmp]# grep '^#.*/.$' /etc/fstab
[root@centos-fuwenchao tmp]# grep '^#.*.$' /etc/fstab
# Accessible filesystems,by reference,are maintained under '/dev/disk'.
[root@centos-fuwenchao tmp]#

很奇诡的地方

[root@centos-fuwenchao tmp]# grep ^#.*.$ /etc/fstab
# /etc/fstab
# Created by anaconda on Fri Nov  1 21:18:42 2013
# Accessible filesystems,are maintained under '/dev/disk'.
# See man pages fstab(5),findfs(8),mount(8) and/or blkid(8) for more info
[root@centos-fuwenchao tmp]# grep ^# /etc/fstab
#
# /etc/fstab
# Created by anaconda on Fri Nov  1 21:18:42 2013
#
# Accessible filesystems,mount(8) and/or blkid(8) for more info
#
[root@centos-fuwenchao tmp]#

正则总结(转)

元字符说明
. 匹配任意一个字符
[abc] 匹配方括号中的任意一个字符。可以使用-表示字符范围，
如[a-z0-9]匹配小写字母和阿拉伯数字。
[^abc] 在方括号内开头使用^符号，表示匹配除方括号中字符之外的任意字符。
/d 匹配阿拉伯数字，等同于[0-9]。
/D 匹配阿拉伯数字之外的任意字符，等同于[^0-9]。
/x 匹配十六进制数字，等同于[0-9A-Fa-f]。
/X 匹配十六进制数字，等同于[^0-9A-Fa-f]。
/w 匹配单词字母，等同于[0-9A-Za-z_]。
/W 匹配单词字母之外的任意字符，等同于[^0-9A-Za-z_]。
/t 匹配<TAB>字符。
/s 匹配空白字符，等同于[ /t]。
/S 匹配非空白字符，等同于[^ /t]。
/a 所有的字母字符. 等同于[a-zA-Z]
/l 小写字母 [a-z]
/L 非小写字母 [^a-z]
/u 大写字母 [A-Z]
/U 非大写字母 [^A-Z]

表示数量的元字符
元字符说明
* 匹配0-任意个
/+ 匹配1-任意个
/? 匹配0-1个
/{n,m} 匹配n-m个
/{n} 匹配n个
/{n,} 匹配n-任意个
/{,m} 匹配0-m个
/_. 匹配包含换行在内的所有字符
/{-} 表示前一个字符可出现零次或多次，但在整个正则表达式可以匹配成功的前提下，匹配的字符数越少越好
/= 匹配一个可有可无的项
/_s 匹配空格或断行
/_[]

元字符说明
/* 匹配 * 字符。
/. 匹配 . 字符。
// 匹配 / 字符。
// 匹配 / 字符。
/[ 匹配 [ 字符。

表示位置的符号
$ 匹配行尾
^ 匹配行首
/< 匹配单词词首
/> 匹配单词词尾

替换变量
在正规表达式中使用 /( 和 /) 符号括起正规表达式，即可在后面使用/1、/2等变量来访问 /( 和 /) 中的内容。

懒惰模式
/{-n,m} 与/{n,m}一样，尽可能少次数地重复
/{-} 匹配它前面的项一次或0次,尽可能地少
/| "或"操作符
/& 并列

函数式
:s/替换字符串//=函数式
在函数式中可以使用 submatch(1)、submatch(2) 等来引用 /1、/2 等的内容，而submatch(0)可以引用匹配的整个内容。

与Perl正则表达式的区别 ?
元字符的区别
Vim语法 Perl语法含义
/+ + 1-任意个
/? ? 0-1个
/{n,m} {n,m} n-m个
/(和/) (和) 分组

http://www.ibm.com/developerworks/cn/aix/library/au-speakingunix9/

grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)

http://www.ibm.com/developerworks/cn/aix/library/au-expressions.html

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!