Shell脚本——正则表达式(一)

发布时间：2020-12-16 01:39:16 所属栏目：安全来源：网络整理

导读：正则表达式的概念正则表达式:使用单个字符串来描述、匹配一系列符合某个句法规则的字符串由普通字符与特殊字符组成，一般用在脚本编程、文本编辑器中,如php、python、she等,简写为regex、regexp、用来检索、替换符合模式的文本,具有强大的文本匹配功能能

正则表达式的概念

正则表达式:使用单个字符串来描述、匹配一系列符合某个句法规则的字符串
由普通字符与特殊字符组成，一般用在脚本编程、文本编辑器中,如php、python、she等,简写为regex、regexp、用来检索、替换符合模式的文本,具有强大的文本匹配功能
能够在文本海洋中快速高效地处理本文

基础正则表达式

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用的正则表达式的最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。

元字符总结

$   匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则“$”也匹配‘n’
或‘r’。要匹配“$”字符本身，请使用“$”
.   匹配除“rn”之外的任何单个字符
   将下一个字符标记为特殊字符、原义字符、向后引用、八进制转义符。例如，‘n’匹配字符“n”。 ‘n’匹配换行符。序列‘’匹配“”，而‘(’则匹配“(”
*   匹配前面的子表达式零次或多次。要匹配“*”字符，请使用“*”
[]  字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”
[^] 赋值字符集合。匹配未包含的一个任意字符。例如，“[^abc]”可以匹配“plain”中“plin”中的任何一个字母
[n1-n2] 字符范围。匹配指定范围内的任意一个字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。
注意：只有连字符（-）在字符组内部，并且出现在两个字符之间时，才能表示字符的范围；如
果出现在字符组的开头，则只能表示连字符本身
{n} n 是一个非负整数，匹配确定的 n 次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个 o
{n,}    n 是一个非负整数，至少匹配 n 次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有 o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”
{n,m}   m 和n 均为非负整数，其中 n<=m，最少匹配 n 次且最多匹配 m 次

Linux文本处理工具

grep（过滤，但是不支持正则表达式）
egrep（支持正则表达式）
sed （行过滤）
awk（列过滤）

实际操作演示

首先我们创建并命名操作所需要的测试文件为test.txt文件内容如下

1）、查找特定字符
查找特定字符非常简单，如执行以下命令即可从 test.txt 文件中查找出特定字符“god” 所在位置。其中“-n”表示显示行号、“-i”表示不区分大小写。命令执行后，符合匹配标准的字符，字体颜色会变为红色

[[email?protected] ~]# grep -n ‘god‘ test.txt  //过滤txt文件中有‘god‘的单词并显示行数
8:god
16:abcgo
[[email?protected] ~]#

[[email?protected] ~]# grep -in ‘god‘ test.txt //过滤文件中以大写或者小写为开头的‘god‘单词并显示行数
8:god
15:God
16:abcgod

2)、利用中括号“[]”来查找集合字符

[[email?protected] ~]# grep -n ‘go[bc]l‘ test.txt 
12:gobl
13:gocl

若要查重复单词

[[email?protected] ~]# grep -n ‘oo‘ test.txt 
9:good
10:goooood

若要实现反向查找的话只需要通过集合字符的反向选择“[^]”来实现目的

[[email?protected] ~]# grep -n ‘[^g]oo‘ test.txt //过滤不以“g”为开头但是带有“oo”的单词
2:loood
3:lood

若不希望“oo”前面存在小写字母，可以使用“grep –n‘[^a-z]oo’test.txt”命令实现，其中“a-z”表示小写字母，大写字母则通过“A-Z”表示。

[[email?protected] ~]# grep -n ‘[^a-z]oo‘ test.txt 
5:Goood
6:Good

[[email?protected] ~]# grep -n ‘[^A-Z]oo‘ test.txt 
2:loood
3:lood
4:good

查找包含数字的行可以通过“grep –n‘[0-9]’test.txt”命令来实现

[[email?protected] ~]# grep -n ‘[0-9]‘ test.txt 
10:abc12345
12:12345

3)、查找行首“^”与行尾字符“$”

[[email?protected] ~]# grep -n ‘^g‘ test.txt   //查看以“g”为开头的单词
1:gd
4:good
7:gola
8:gobl
9:gocl

[[email?protected] ~]# grep -n ‘l$‘ test.txt    //查看以“l”结尾的单词
8:gobl
9:gocl

**若要查询以小写字母开头的行可以通过‘^[a-z]‘规则来过滤，查询大写字母开头的行则使用“^[A-Z]”规则，若查询不以字母开头的行则使用“^[^a-zA-Z]”规则。**

[[email?protected] ~]# grep -n ‘^[a-z]‘ test.txt  //过滤以小写字母为开头的单词
1:gd
2:loood
3:lood
4:good
7:gola
8:gobl
9:gocl
10:abc12345

[[email?protected] ~]# grep -n ‘^[A-Z]‘ test.txt //过滤以大写字母为开头的单词
5:Goood
6:Good
11:God

[[email?protected] ~]# grep -n ‘^[^a-zA-Z]‘ test.txt //过滤不以字母开头规则
12:12345

执行以下命令即可实现查询以小数点（.）结尾的行。因为小数点（.）在正则表达式中也是一个元字符，所以在这里需要用转义字符“”将具有特殊意义的字符转化成普通字符。

[[email?protected] ~]# grep -n ‘.$‘ test.txt 
abc12345.
God.
12345.

当查询空白行时，执行“grep –n‘^$’test.txt”命令即可

[[email?protected] ~]# grep -n ‘^$‘ test.txt 
15:

*4)、查找任意一个字符“.”与重复字符“”，例如，执行以下命令就可以查找“g??l”的字符串，即共有四个字符，以 g 开头 l 结尾。**

[[email?protected] ~]# grep -n ‘g..l‘ test.txt 
8:gobl
9:gocl

若想要查询 oo、ooo、ooooo 等资料，则需要使用星号 () 元字符。但需要注意的是，“”代表的是重复零个或多个前面的单字符。“o”表示拥有零个（即为空字符）或大于等于一个“o”的字符，因为允许空字符，所以执行“grep –n‘o’test.txt”命令会将文本中所有的内容都输出打印。如果是“oo”，则第一个 o 必须存在，第二个 o 则是零个或多个 o，所以凡是包含 o、oo、ooo、ooo，等的资料都符合标准。同理，若查询包含至少两个 o 以上的字符串，则执行“grep –n‘ooo’ test.txt”命令即可。

示例

[[email?protected] ~]# grep -n ‘ooo*‘ test.txt 
2:loood
3:lood
4:good
5:Goood
6:Good

查询以 g 开头 l 结尾，中间包含至少一个 o 的字符串，执行以下命令即可实现

[[email?protected] ~]# grep -n ‘goo*d‘ test.txt 
4:good
5:gooood
6:goood

查询以 g 开头 d 结尾，中间的字符可有可无的字符串

[[email?protected] ~]# grep -n ‘g.*d‘ test.txt 
1:gd
4:good
5:gooood
6:goood

查询任意数字所在行

[[email?protected] ~]# grep -n ‘[0-9][0-9]*‘ test.txt 
12:abc12345.
14:12345.

5）查找连续字符范围“{}”
我们使用“.”与“*”来设定零个到无限多个重复的字符，“{}”在 Shell 中具有特殊意义，所以在使用“{}”字符时，需要利用转义字符“”，将“{}”字符转换成普通字符。
(1）查询两个 o 的字符

[[email?protected] ~]# grep -n ‘o{2}‘ test.txt 
2:loood
3:lood
4:good
5:gooood
6:goood
7:Goood
8:Good

(2）查询以 g 开头以 l 结尾，中间包含 2～5 个 o 的字符串

[[email?protected] ~]# grep -n ‘go{2,5}d‘ test.txt 
4:good
5:goooood
6:goood

(3）查询以 w 开头以 d 结尾，中间包含 2 以上 o 的字符串

[[email?protected] ~]# grep -n ‘go{2,}d‘ test.txt 
4:good
5:goooood
6:goood

扩展正则表达式

egrep 命令是一个搜索文件获得模式，使用该命令可以搜索文件中的任意字符串和符号，也可以搜索一个或多个文件的字符串，一个提示符可以是单个字符、一个字符串、一个字或一个句子。

+   作用：重复一个或者一个以上的前一个字符

示例：执行“egrep -n ‘wo+d‘ test.txt”命令，即可查询"wood" "woood" "woooooood"等字符串
？   作用：零个或者一个的前一个字符

示例：执行“egrep -n ‘bes?t‘ test.txt”命令，即可查询“bet”“best”这两个字符串
|   作用：使用或者（or）的方式找出多个字符

示例：执行“egrep -n ‘of|is|on‘ test.txt”命令即可查询"of"或者"if"或者"on"字符串
()  作用：查找“组”字符串
示例：“egrep -n ‘t(a|e)st‘ test.txt”。“tast”与“test”因为这两个单词的“t”与“st”是重复的，所以将“a”与“e”列于“()”符号当中，并以“|”分隔，即可查询"tast"或者"test"字符串
()+ 作用：辨别多个重复的组

示例：“egrep -n ‘A(xyz)+C‘ test.txt”。该命令是查询开头的"A"结尾是"C"，中间有一个以上的 "xyz"字符串的意思

示例

重复一个或者一个以上的前一个字符

[[email?protected] ~]# egrep -n ‘go+d‘ test.txt 
4:good
5:goooood
6:goood

零个或者一个的前一个字符

[[email?protected] ~]# egrep -n ‘go?d‘ test.txt 
1:gd

使用或者（or）的方式找出多个字符

[[email?protected] ~]# egrep -n ‘ol|ob‘ test.txt 
9:gola
10:gobl

查找“组”字符串

[[email?protected] ~]# egrep -n ‘go(b|c)l‘ test.txt 
10:gobl
11:gocl

辨别多个重复的组

[[email?protected] ~]# egrep -n ‘g(abc)+d‘ test.txt 
2:gabcd
3:gabcabcd

sed工具

sed是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于 Shell 脚本中，用以完成各种自动化处理任务。
sed 的工作流程主要包括读取、执行和显示三个过程。
读取：sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓

冲区中（又称模式空间，pattern space）。
执行：默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行。
显示：发送修改后的内容到输出流。再发送数据后，模式空间将会被清空。
在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

1. sed 命令常见用法
通常情况下调用 sed 命令有两种格式，如下所示。其中，“参数”是指操作的目标文件，当存在多个操作对象时用，文件之间用逗号“，”分隔；而 scriptfile 表示脚本文件，需要用“-f”选项指定，当脚本文件出现在目标文件之前时，表示通过指定的脚本文件来处理输入的目标文件。
sed格式
sed[选项] ‘操作‘ 参数
sed [选项] -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种。
-e 或--expression=：表示用指定命令或者脚本来处理输入的文本文件。
-f 或--file=：表示用指定的脚本文件来处理输入的文本文件。
-h 或--help：显示帮助。
-n、--quiet 或 silent：表示仅显示处理后的结果。
-i：直接编辑文本文件。

如果在行与行之间操作，常见的操作包括以下几种。
a：增加，在当前行下面增加一行指定内容。
c：替换，将选定行替换为指定内容。
d：删除，删除选定的行。
i：插入，在选定行上面插入一行指定内容。

p：打印，如果同时指定行，表示打印指定行；如果不指定行，则表示打印所有内容；如果有非打印字符，则以 ASCII 码输出。其通常与“-n”选项一起使用。
s：替换，替换指定字符。
y：字符转换。

输出符合条件的文本（p 表示正常输出）

[[email?protected] ~]# sed -n ‘p‘ test.txt   //输出所有内容
godg
gabcd
gabcabcd
.....//省略部分内容
abc12345.
God.
12345.

[[email?protected] ~]# sed -n ‘3p‘ test.txt  //输出第3行内容
gabcabcd

[[email?protected] ~]# sed -n ‘3,5p‘ test.txt   //输出3~5行内容
gabcabcd
good
goooood

[[email?protected] ~]# sed -n ‘p;n‘ test.txt   //输出奇数行的内容
godg
gabcabcd
goooood
Goood
gola
gocl
God.

[[email?protected] ~]# sed -n ‘n;p‘ test.txt  //输出偶数行的内容
gabcd
good
goood
Good
gobl
abc12345.
12345.

[[email?protected] ~]# sed -n ‘1,5{p;n}‘ test.txt   //输出1~5行内奇数行
godg
gabcabcd
goooood

[[email?protected] ~]# sed -n ‘10,${n;p}‘ test.txt  //输出尾10行的偶数行 
gocl
God.

以上是 sed 命令的基本用法，sed 命令结合正则表达式时，格式略有不同，正则表达式以“/”包围。以下是 sed 命令与正则表达式结合使用的示例。

[[email?protected] ~]# sed -n ‘/goo/p‘ test.txt  //输出包含"goo"的单词
good
goooood
goood

[[email?protected] ~]# sed -n ‘4,/go/p‘ test.txt   //输出
good
goooood

[[email?protected] ~]# sed -n ‘/go/=‘ test.txt   //输出包含"go"的所在行行数
1
4
5
6
9
10
11

[[email?protected] ~]# sed -n ‘/^G/=‘ test.txt   //输入以"G"开开头的行数
7
8
13

[[email?protected] ~]# sed -n ‘/&;good&;/p‘ test.txt   //输出包含单词"good"的行数
good

2)删除符合条件的文本（d）

[[email?protected] ~]# nl test.txt | sed ‘3d‘  //删除了第三行
     1  godg
     2  gabcd
     4  good
     5  goooood
     6  goood
     7  Goood

[[email?protected] ~]# nl test.txt | sed ‘3,5d‘ //删除第3行和第5行
     1  godg
     2  gabcd
     6  goood
     7  Goood
     8  Good
     9  gola

[[email?protected] ~]# nl test.txt | sed ‘/good/d ‘   //删除"good"单词的行
     1  godg
     2  gabcd
     3  gabcabcd
     5  goooood
     6  goood
     7  Goood

[[email?protected] ~]# sed ‘/^[a-z]/d‘ test.txt   //删除以小写字母开头的
Goood
Good
God.
12345.

[[email?protected] ~]# sed ‘/.$/d‘ test.txt   //删除以"."为结尾的字母
godg
gabcd
gabcabcd
good
goooood
goood
Goood
Good
gola
gobl
gocl

[[email?protected] ~]# sed ‘/^$/d‘ test.txt   //删除空行
godg
gabcd
gabcabcd
good
goooood
goood
Goood
Good
gola
gobl
gocl
abc12345.
God.
12345.

3)替换符合条件的文本

sed ‘s/the/THE/‘ test.txt   //将每行中的第一个the 替换为 THE 
sed ‘s/l/L/2‘ test.txt  //将每行中的第 3 个l 替换为L 
sed ‘s/the/THE/g‘ test.txt  //将文件中的所有the 替换为THE
sed ‘s/o//g‘ test.txt   //将文件中的所有o 删除(替换为空串)
sed ‘s/^/#/‘ test.txt   //在每行行首插入#号
sed ‘/the/s/^/#/‘ test.txt      //在包含the 的每行行首插入#号
sed ‘s/$/EOF/‘ test.txt     //在每行行尾插入字符串EOF 
sed ‘3,5s/the/THE/g‘ test.txt   //将第 3~5 行中的所有the 替换为 THE
sed ‘/the/s/o/O/g‘ test.txt //将包含the 的所有行中的o 都替换为 O

4)迁移符合条件的文本

sed ‘/the/{H;d};$G‘ test.txt    //将包含the 的行迁移至文件末尾,{;}用于多个操作
sed ‘1,5{H;d};17G‘ test.txt //将第 1~5 行内容转移至第 17 行后
sed ‘/the/w out.file‘ test.txt  //将包含the 的行另存为文件out.file
sed ‘/the/r /etc/hostname‘ test.txt //将文件/etc/hostname 的内容添加到
//包含the 的每行以后
sed ‘3aNew‘ test.txt        //在第 3 行后插入一个新行,内容为 New 
sed ‘/the/aNew‘ test.txt    //在包含the 的每行后插入一个新行,内容为 New
sed ‘3aNew1nNew2‘ test.txt //在第 3 行后插入多行内容,中间的n 表示换行

5)使用脚本编辑文件

[[email?protected] ~]# sed ‘1,5{H;d};7G‘ test.txt   //将1~5行内容转移至第七行之后
goood
Goood

godg
gabcd
gabcabcd
good
goooood
Good
gola
gobl
gocl
abc12345.
God.
12345.

[[email?protected] ~]# vim local_only_ftp.sh #!/bin/bash
# 指定样本文件路径、配置文件路径
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf " 
CONFIG="/etc/vsftpd/vsftpd.conf"
# 备份原来的配置文件,检测文件名为/etc/vsftpd/vsftpd.conf.bak 备份文件是否存在,若不存在则使用 cp 命令进行文件备份 
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak # 基于样本配置进行调整,覆盖现有文件
sed -e ‘/^anonymous_enable/s/YES/NO/g‘ $SAMPLE > $CONFIG
sed -i -e ‘/^local_enable/s/NO/YES/g‘ -e ‘/^write_enable/s/NO/YES/g‘ $CONFIG grep "listen" $CONFIG || sed -i ‘$alisten=YES‘ $CONFIG
# 启动vsftpd 服务,并设为开机后自动运行
 systemctl restart vsftpd
systemctl enable vsftpd

awk工具

在 Linux/UNIX 系统中，awk 是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理，可以在无交互的情况下实现相当复杂的文本操作，被广泛应用于 Shell 脚本，完成各种自动化配置任务。
1. awk 常见用法
通常情况下 awk 所使用的命令格式如下所示，其中，单引号加上大括号“{}”用于设置对数据进行的处理动作。awk 可以直接处理目标文件，也可以通过“-f”读取脚本对目标文件进行处理。

awk 选项 ‘模式或条件 {编辑指令}‘ 文件 1 文件 2 ?   //过滤并输出文件符条件的内容
awk -f 脚本文件 文件 1 文件 2 ? //从脚本中调用编辑指令,过滤并输出内容

若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列，执行以下 awk 命令即可

[[email?protected] ~]# awk -F ‘:‘ ‘{print $1,$3,$5}‘ /etc/passwd
root 0 root
bin 1 bin
daemon 2 daemon
....//省略部分

awk 包含几个特殊的内建变量（可直接用）如下所示：
    FS：指定每行文本的字段分隔符，默认为空格或制表位。

    NF：当前处理的行的字段个数。
    NR：当前处理的行的行号（序数）。
    $0：当前处理的行的整行内容。
    $n：当前处理行的第 n 个字段（第 n 列）。
    FILENAME：被处理的文件名。
    RS：数据记录分隔，默认为n，即每行为一条记录。

用法示例
1)按行输出文本

awk ‘{print}‘ test.txt       //输出所有内容,等同于 cat test.txt
awk ‘{print $0}‘ test.txt   //输出所有内容,等同于 cat test.txt
awk ‘NR==1,NR==3{print}‘ test.txt   //输出第 1~3 行内容
awk ‘(NR>=1)&&(NR<=3){print}‘ test.txt  //输出第 1~3 行内容
awk ‘NR==1||NR==3{print}‘ test.txt  //输出第 1 行、第 3 行内容
awk ‘(NR%2)==1{print}‘ test.txt //输出所有奇数行的内容
awk ‘(NR%2)==0{print}‘ test.txt //输出所有偶数行的内容
awk ‘/^root/{print}‘ /etc/passwd    //输出以root 开头的行
awk ‘/nologin$/{print}‘ /etc/passwd//输出以 nologin 结尾的行
awk ‘BEGIN {x=0} ; //bin/bash$/{x++};END {print x}‘ /etc/passwd
//统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd 
awk ‘BEGIN{RS=""};END{print NR}‘ /etc/squid/squid.conf
//统计以空行分隔的文本段落数

2)按字段输出文本

awk ‘{print $3}‘ test.txt   //输出每行中(以空格或制表位分隔)的第 3 个字段
awk ‘{print $1,$3}‘ test.txt    //输出每行中的第 1、3 个字段
awk -F ":" ‘$2==""{print}‘ /etc/shadow //输出密码为空的用户的shadow 记录
awk ‘BEGIN {FS=":"}; $2==""{print}‘ /etc/shadow
//输出密码为空的用户的shadow 记录
awk -F ":" ‘$7~"/bash"{print $1}‘ /etc/passwd

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!