正则表达式基础

发布时间：2020-12-14 06:16:54 所属栏目：百科来源：网络整理

导读：? ? 介绍3个命令 sed grep? awk 正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符

介绍3个命令

sed grep? awk

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在 Perl 中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 UNIX 中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有 regexp、regex，复数有 regexps、regexes、regexen。

简单的说形式和功能上正则表达式和我们前面讲的通配符很像，不过它们之间又有很大差别，特别在于一些特殊的匹配字符的含义上，希望初学者注意不要将两者弄混淆。

假设我们有这样一个文本文件，包含"shiyanlou"，和"shilouyan"这两个字符串，同样一个表达式：

shi*
如果这作为一个正则表达式，它将只能匹配 shi，而如果不是作为正则表达式*作为一个通配符，则将同时匹配这两个字符串。这是为什么呢？因为在正则表达式中*表示匹配前面的子表达式（这里就是它前面一个字符）零次或多次，比如它可以匹配"sh","shii","shish","shiishi"等等，而作为通配符表示匹配通配符后面任意多个任意字符，所以它可以匹配"shiyanlou"，和"shilouyan"两个字符。

基本语法

一个正则表达式通常被称为一个模式（pattern），为用来描述或者匹配一系列符合某个句法规则的字符串。

选择
|竖直分隔符表示选择，例如"boy|girl"可以匹配"boy"或者"girl"

数量限定
数量限定除了我们举例用的*,还有+加号,?问号,如果在一个模式中不加数量限定符则表示出现一次且仅出现一次：

+表示前面的字符必须出现至少一次(1次或多次)，例如，"goo+gle",可以匹配"gooogle","goooogle"等；
?表示前面的字符最多出现一次(0次或1次)，例如，"colou?r",可以匹配"color"或者"colour";
*星号代表前面的字符可以不出现，也可以出现一次或者多次（0次、或1次、或多次），例如，“0*42”可以匹配42、042、0042、00042等。

范围和优先级
()圆括号可以用来定义模式字符串的范围和优先级，这可以简单的理解为是否将括号内的模式串作为一个整体。例如，"gr(a|e)y"等价于"gray|grey"，（这里体现了优先级，竖直分隔符用于选择a或者e而不是gra和ey），"(grand)?father"匹配father和grandfather（这里体验了范围，?将圆括号内容作为一个整体匹配）。

语法（部分）

当^放到中括号内为排除字符，否则表示行首。

优先级
优先级为从上到下从左到右，依次降低：

Sed?

sed [参数]... [执行命令] [输入文件]...
# 形如：
$ sed -i ‘s/sad/happy/‘ test # 表示将test文件中的"sad"替换为"happy"

参数说明
-n 安静模式，只打印受影响的行，默认打印输入数据的全部内容
-e 用于在脚本中添加多个执行命令一次执行，在命令行中执行多个命令通常不需要加该参数
-f filename 指定执行filename文件中的命令
-r 使用扩展正则表达式，默认为标准正则表达式
-i 将直接修改输入文件内容，而不是打印到标准输出设备

[n1][,n2]command
[n1][~step]command
# 其中一些命令可以在后面加上作用范围，形如：
$ sed -i ‘s/sad/happy/g‘ test # g表示全局范围
$ sed -i ‘s/sad/happy/4‘ test # 4表示指定行中的第四个匹配字符串

其中n1,n2表示输入内容的行号，它们之间为,逗号则表示从n1到n2行，如果为～波浪号则表示从n1开始以step为步进的所有行；command为执行动作，下面为一些常用动作指令：

命令说明
s 行内替换
c 整行替换
a 插入到指定行的后面
i 插入到指定行的前面
p 打印指定行，通常与-n参数配合使用
d 删除指定行

# 打印2-5行
$ nl passwd | sed -n ‘2,5p‘
# 打印奇数行
$ nl passwd | sed -n ‘1~2p‘

# 将输入文本中"shiyanlou" 全局替换为"hehe",并只打印替换的那一行，注意这里不能省略最后的"p"命令
$ sed -n ‘s/shiyanlou/hehe/gp‘ passwd

awk

AWK是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一.其名称得自于它的创始人Alfred Aho（阿尔佛雷德·艾侯）、Peter Jay Weinberger（彼得·温伯格）和Brian Wilson Kernighan（布莱恩·柯林汉)姓氏的首个字母.AWK程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。最简单地说，AWK是一种用于处理文本的编程语言工具。

说明:你首先应该注意的是，这里我使用了awk语言的分支选择语句if,它的使用和很多高级语言如C/C++语言基本一致，如果你有这些语言的基础，这里将很好理解。另一个你需要注意的是NR与OFS，这两个是awk内建的变量，NR表示当前读入的记录数，你可以简单的理解为当前处理的行数，OFS表示输出时的字段分隔符，默认为" "空格，如上图所见，我们将字段分隔符设置为n换行符，所以第一行原本以空格为字段分隔的内容就分别输出到单独一行了。然后是$N其中N为相应的字段号，这也是awk的内建变量，它表示引用相应的字段，因为我们这里第一行只有三个字段，所以只引用到了$3。除此之外另一个这里没有出现的$0，它表示引用当前记录（当前行）的全部内容。

将test的第二行的以点为分段的字段换成以空格为分隔

awk -F ‘.‘ ‘{if(NR==2) {print $1 "t" $2 "t" $3} else {print} }‘ test

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!