在lex说明文件中指定扩展的正则表达式与在sed或者ed命令中所使用的方法相似。
扩展的正则表达式指定了要匹配的字符串的集合。表达式包含文本字符和运算符字符。文本字符与正在被比较的字符串中的相应字符匹配。运算符字符指定重复次数、选项和其他功能。
数字和字母表的字母被认为是文本字符。例如,扩展的正则表达式integer与字符串integer匹配,表达式a57D搜索字符串a57D。
运算符
下面的列表描述了如何使用运算符指定扩展的正则表达式:
-
Character
-
与字符
Character
匹配。示例:a与文字字符 a 匹配;b与文字字符 b 匹配,而c与文字字符 c 匹配。
-
"
String"
-
匹配引号中扩起来的字符串,即使字符串包含运算符。
示例:要阻止lex命令将$(美元符号)解释为运算符,请将该符号括在引号中。
-
Character或
Digits
-
转义字符。当位于字符串中使用的字符类运算符之前时,
字符表明运算符符号代表文字字符,而不是运算符。有效转义序列包括:
-
a
-
提醒
-
b
-
退格
-
f
-
换页
-
n
-
换行符(不要在表达式中使用真正的换行符。)
-
r
-
返回
-
t
-
跳格
-
v
-
纵向制表符
-
-
反斜杠
-
Digits
-
其编码由
Digits字符串指定的一位、两位或者三位八进制整数所表示的字符。
-
x
Digits
-
其编码由
Digits字符串指定的十六进制字符序列所表示的字符。
当字符位于某字符前面,而该字符不在前面的转义序列列表中,那么lex命令按字面解释字符。
示例:c被解释为c字符不变,[^abc]表示包含字符^abc的字符类。
注:千万不要在
lex命令中使用
0 或者
x0。
-
[
List]
-
基于
lex命令被调用的语言环境,与被扩起来的范围 (
[
x-
y
]) 或者被扩起来的列表 (
[
xyz
]) 中的任一字符匹配。所有运算符符号(除了下述例外)在括号表达式中失去它们的特殊含义:
-(短划线)、
^(插入标记)和
(反斜杠)。
示例:[abc-f]与 en_US 语言环境中的a、b、c、d、e或f匹配。
-
[:
Class
:]
-
如当前语言环境中的 LC_TYPE 类别中所定义的,与属于
[::]定界符之间所指定的字符类的任何字符匹配。下面的字符类名称被所有的语言环境所支持:
alnum cntrl lower space alpha digit print upper blank graph punct xdigit
lex命令还识别用户定义的字符类名。[::]运算符仅在[]表达式中有效。
示例:在当前语言环境中,[[:alpha:]]与alpha字符类中的任何都字符匹配,但是[:alpha:]仅与字符:、a、l、p和h匹配。
-
[.
CollatingSymbol
.]
-
作为单个字符与
[..]定界符中指定的整理符号匹配。
[..]运算符仅在
[
]表达式中有效。对于当前语言环境,整理符号必须是有效整理符号。
示例:[[.ch.]]与c和h都匹配,但是[ch]则与c或h匹配。
-
[=
CollatingElement
=]
-
与
[==]定界符中指定的整理元素以及属于其等价类的所有整理元素匹配。
[==]运算符仅在
[]表达式中有效。
示例:如果w和v属于同一个等价类,那么[[=w=]]与[wv]相同并且与w或者v匹配。如果w不属于等价类,那么[[=w=]]仅与w匹配。
-
[^
Character
]
-
与除了
^(插入标记)后的字符之外的任何字符匹配。结果字符类仅由单字节字符组成。
^符号后面的字符可以是多字节字符。但是,要此运算符与多字节字符匹配,您必须在定义部分将
%h和
%m设为大于零。
示例:[^c]与c之外的任何字符匹配。
-
CollatingElement
-
CollatingElement
-
在字符类中,指示为当前语言环境定义的整理顺序中的字符范围。范围必须为升序。结束范围点必须核对与起始范围点相等或者更高。因为范围基于当前语言环境的整理顺序,所给的范围可能与不同的字符匹配,这取决于调用
lex命令的语言环境。
-
Expression
?
-
与
?运算符前紧挨着的表达式的零个或一个具体值匹配。
示例:ab?c与 ac 或 abc 匹配。
-
句点字符 (.)
-
与换行符以外的任何字符匹配。为了使句点字符 (
.) 与多字节字符匹配,必须在
lex说明文件的定义部分中将
%z设为大于 0。如果未设置
%z,那么句点字符 (.) 仅与单字节字符匹配。
-
Expression
*
-
与
*运算符之前紧挨着的表达式的零个或更多具体值匹配。例如,
a*为任意数目(包括零个)连续的
a字符。在复杂表达式中与零个具体值匹配的作用更明显。
示例:表达式[A-Za-z][A-Za-z0-9]* 指示以字母字符开头的所有字母数字字符串,包括仅为一个字母字符的字符串。您能使用该表达式识别使用计算机语言的标识。
-
Expression
+
-
与
+运算符之前紧挨着的模式的一个或更多具体值匹配。
示例:a+与一个或者更多a的实例匹配。同样,[a-z]+与所有小写字母字符串匹配。
-
Expression
|
Expression
-
指示与 |(管道)运算符之前或之后的表达式匹配。
示例:ab|cd与ab或者cd匹配。
-
(
Expression
)
-
与圆括号中的表达式匹配。
()(圆括号)运算符用于分组,并使圆括号中的表达式被读入
yytext数组。圆括号中的组可用于代替任何其他模式的任何单个字符。
示例:(ab|cd+)?(ef)*与诸如以下的字符串匹配:abefef、efefef、cdef或者cddd;但是与abc、abcd或者abcdef不匹配。
-
^
Expression
-
仅当
Expression在行起始处且
^(插入标记)运算符是表达式中的第一个字符时指示匹配。
示例:^h与行首的h匹配。
-
Expression
$
-
仅当
Expression在行末尾且
$(美元符号)运算符是表达式的最后一个字符时指示匹配。
示例:h$与行尾的h匹配。
-
Expression1
/
Expression2
-
仅当
Expression2紧跟在
Expression1之后时指示匹配。
/(斜杠)运算符仅将第一个表达式读入
yytext数组。
示例:ab/cd与字符串ab匹配,但后面必须跟有cd,然后才会将ab读到yytext数组。
注:在单个扩展的正则表达式中仅能使用一个
/尾部上下文运算符。
^(插入标记)和
$(美元符号)运算符不可与
/运算符用于同一个表达式,因为它们指示尾部上下文的特殊情况。
-
{
DefinedName
}
-
与您在定义部分定义的名称匹配。
示例:如果您定义D为数字,那么{D}匹配所有的数字。
-
{
Number1
,
Number2
}
-
与它前面紧挨着的模式的
Nubmer1到
Number2的具体值匹配。允许使用表达式
{
Number
}和
{
Number
,},它们精确匹配表达式前的模式的
Number的具体值。
示例:xyz{2,4}与 xyzxyz、xyzxyzxyz 或 xyzxyzxyzxyz 匹配。这有别于+、*和?运算符,因为这些运算符仅与紧挨着前面的字符匹配。要仅与时间间隔表达式前的字符匹配,请使用分组运算符。例如,xy(z{2,4})与 xyzz、xyzzz 或者 xyzzzz 匹配。
-
<
StartCondition
>
-
只有在词法分析器位于指示的启动条件中时,才执行关联的操作。
示例:如果行首是启动条件ONE,那么^(插入标记)运算符等于表达式<ONE>。
要将运算符字符作为文本字符使用,请使用下述之一的转义序列:
"
"(双引号)或者
(反斜杠)。
" "运算符表示其中包含的即为文本。那么,下面的示例与字符串
xyz++匹配:
xyz"++"
可以给字符串的一部分加引号。给普通的文本字符加引号不起作用。例如,下面的表达式与前面的示例相等:
要确保文本被解释为文本,请给不是字母或者数字的所有字符加引号。
将运算符字符转换为文本字符的另一种方法是在运算符字符前面加上
(反斜杠)字符。例如,下面的表达式等价于上述示例:
xyz++
(编辑:李大同)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|