加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

RegExp 正则表达式

发布时间:2020-12-13 22:02:32 所属栏目:百科 来源:网络整理
导读:原文 字面表达式和构造函数 / pattern / flags new RegExp( pattern [,flags] ) pattern 正则表达式的文本 flags 常用的:g(全局匹配)、i(忽略大小写)、m(多行,可以使用^"开头","结尾") 正则表达式中的特殊字符 字符类别(Character Classes) 字符 含义 .

原文

字面表达式和构造函数

/pattern/flags new RegExp(pattern [,flags])

pattern 正则表达式的文本

flags 常用的:g(全局匹配)、i(忽略大小写)、m(多行,可以使用^"开头",&"结尾")

正则表达式中的特殊字符

字符类别(Character Classes)

字符

含义

.

(点号,小数点)匹配任意单个字符,但是换行符除外,包括:nru2028或u2029。

需要注意的是,m多行(multiline)标志不会改变点号的表现。因此为了匹配多行中的字符集,可使用[^](当然你不是打算用在旧版本 IE 中),它将会匹配任意字符,包括换行符。

例如,/.y/匹配 "yes make my day" 中的"my" 和 "ay",但是不匹配 "yes"。

d

匹配基本拉丁字母表(basic Latin alphabet)中的一个数字字符。等价于[0-9]。

例如,/d/或/[0-9]/匹配 "B2 is the suite number." 中的'2'。

D

匹配任意一个不是基本拉丁字母表中数字的字符。等价于[^0-9]。

例如,/D/或/[^0-9]/匹配 "B2 is the suite number." 中的'B'。

w

匹配任意来自基本拉丁字母表中的字母数字字符,还包括下划线。等价于[A-Za-z0-9_]。

例如,/w/匹配 "apple" 中的 'a',"$5.28" 中的 '5' 和 "3D" 中的 '3'。

W

匹配任意不是基本拉丁字母表中单词(字母数字下划线)字符的字符。等价于[^A-Za-z0-9_]。

例如,/W/或/[^A-Za-z0-9_]/匹配 "50%" 中的 '%'。

s

匹配一个空白符,包括空格、制表符、换页符、换行符和其他 Unicode 空格。

等价于[ fnrtv?u00a0u1680?u180eu2000?u2001u2002?u2003u2004? u2005u2006?u2007u2008?u2009u200a?u2028u2029??u202fu205f? u3000]。

例如/sw*/匹配 "foo bar" 中的 ' bar'。

S

匹配一个非空白符。等价于[^ fnrtv?u00a0u1680?u180eu2000?u2001u2002?u2003u2004?u2005u2006?u2007u2008?u2009u200a?u2028u2029?u202fu205f?u3000]。

例如,/Sw*/匹配 "foo bar" 中的 'foo'。

t

匹配一个水平制表符(tab)

r

匹配一个回车符(carriage return)

n

匹配一个换行符(linefeed)

v

匹配一个垂直制表符(vertical tab)

f

匹配一个换页符(form-feed)

[b]

匹配一个退格符(backspace)(不要与b混淆)

匹配一个 NUL 字符。不要在此后面跟小数点。

cX

X是 A - Z 的一个字母。匹配字符串中的一个控制字符。

例如,/cM/匹配字符串中的 control-M。

xhh

匹配编码为hh(两个十六进制数字)的字符。

uhhhh

匹配 Unicode 值为hhhh(四个十六进制数字)的字符。

对于那些通常被认为字面意义的字符来说,表示下一个字符具有特殊用处,并且不会被按照字面意义解释。

例如/b/匹配字符 'b'。在 b 前面加上一个反斜杠,即使用/b/,则该字符变得特殊,以为这匹配一个单词边界。

对于那些通常特殊对待的字符,表示下一个字符不具有特殊用途,会被按照字面意义解释。

例如,* 是一个特殊字符,表示匹配某个字符 0 或多次,如/a*/意味着 0 或多个 "a"。 为了匹配字面意义上的*,在它前面加上一个反斜杠,例如,/a*/匹配 'a*'。

字符集合(Character Sets)

字符

含义

[xyz]

一个字符集合,也叫字符组。匹配集合中的任意一个字符。你可以使用连字符'-'指定一个范围。

例如,[abcd] 等价于 [a-d],匹配"brisket"中的'b'和"chop"中的'c'。

[^xyz]

一个反义或补充字符集,也叫反义字符组。也就是说,它匹配任意不在括号内的字符。你也可以通过使用连字符 '-' 指定一个范围内的字符。

例如,[^abc]等价于[^a-c]。第一个匹配的是 "bacon" 中的'o' 和 "chop" 中的 'h'。

边界(Boundaries)

字符

含义

^

匹配输入/字符串的开始。如果多行(multiline)标志被设为 true,该字符也会匹配一个断行(line break)符后的开始处。

例如,/^A/不匹配 "an A" 中的 "A",但匹配 "An A" 中的 "A"。

$

匹配输入/字符串的结尾。如果多行(multiline)标志被设为 true,该字符也会匹配一个断行(line break)符的前的结尾处。

例如,/t$/不匹配 "eater" 中的 "t",但匹配 "eat" 中的 "t"。

b

匹配一个零宽单词边界(zero-width word boundary),如一个字母与一个空格之间。 (不要和[b]混淆)

例如,/bno/匹配 "at noon" 中的 "no",/lyb/匹配 "possibly yesterday." 中的 "ly"。

B

匹配一个零宽非单词边界(zero-width non-word boundary),如两个字母之间或两个空格之间。

例如,/Bon/匹配 "at noon" 中的 "on",/yeB/匹配 "possibly yesterday." 中的 "ye"。

分组(Grouping)与反向引用(back references)

字符

含义

(x)

匹配x并且捕获匹配项。 这被称为捕获括号(capturing parentheses)。

例如,/(foo)/匹配且捕获 "foo bar." 中的 "foo"。被匹配的子字符串可以在结果数组的元素[1],...,[n]中找到,或在被定义的RegExp对象的属性$1,$9中找到。

捕获组(Capturing groups)有性能惩罚。如果再次访问被匹配的子字符串,最好使用非捕获括号(non-capturing parentheses),见下面。

n

n是一个正整数。一个反向引用(back reference),指向正则表达式中第 n 个括号(从左开始数)中匹配的子字符串。

例如,/apple(,)sorange1/匹配 "apple,orange,cherry,peach." 中的 "apple,"。一个更全面的例子在该表格下面。

(?:x)

匹配x不会捕获匹配项。这被称为非捕获括号(non-capturing parentheses)。匹配项不能够从结果数组的元素[1],[n]或已被定义的RegExp对象的属性$1,$9再次访问到。

数量词(Quantifiers)

字符

含义

x*

匹配前面的模式x0 或多次。

例如,/bo*/匹配 "A ghost booooed" 中的 "boooo","A bird warbled" 中的 "b",但是不匹配 "A goat grunted"。

x+

匹配前面的模式x1 或多次。等价于{1,}。

例如,/a+/匹配 "candy" 中的 "a","caaaaaaandy" 中所有的 "a"。

x*?
x+?

像上面的 * 和 + 一样匹配前面的模式x,然而匹配是最小可能匹配。

例如,/".*?"/匹配 '"foo" "bar"' 中的 '"foo"',而 * 后面没有 ? 时匹配 '"foo" "bar"'。

x?

匹配前面的模式x0 或 1 次。

例如,/e?le?/匹配 "angel" 中的 "el","angle" 中的 "le"。

如果在数量词*、+、?或{},任意一个后面紧跟该符号(?),会使数量词变为非贪婪( non-greedy) ,即匹配次数最小化。反之,默认情况下,是贪婪的(greedy),即匹配次数最大化。

在使用于向前断言(lookahead assertions)时,见该表格中(?=)、(?!)和(?:)的说明。

x(?=y)

只有当x后面紧跟着y时,才匹配x。 例如,/Jack(?=Sprat)/只有在 'Jack' 后面紧跟着 'Sprat' 时,才会匹配它。/Jack(?=Sprat|Frost)/只有在 'Jack' 后面紧跟着 'Sprat' 或 'Frost' 时,才会匹配它。然而,'Sprat' 或 'Frost' 都不是匹配结果的一部分。

x(?!y)

只有当x后面不是紧跟着y时,才匹配x。例如,/d+(?!.)/只有当一个数字后面没有紧跟着一个小数点时,才会匹配该数字。

/d+(?!.)/.exec("3.141")匹配 141 而不是 3.141。

x|y

匹配xy

例如,/green|red/匹配 "green apple" 中的 ‘green',"red apple." 中的 'red'。

x{n}

n是一个正整数。前面的模式x连续出现 n 次时匹配。

例如,/a{2}/不匹配 "candy," 中的 "a",但是匹配 "caandy," 中的两个 "a",且匹配 "caaandy." 中的前两个 "a"。

x{n,}

n是一个正整数。前面的模式x连续出现至少 n 次时匹配。

例如,/a{2,}/不匹配 "candy" 中的 "a",但是匹配 "caandy" 和 "caaaaaaandy." 中所有的 "a"。

x{n,m}

nm为正整数。前面的模式 x 连续出现至少 n 次,至多 m 次时匹配。

例如,/a{1,3}/不匹配 "cndy",匹配 "candy," 中的 "a","caandy," 中的两个 "a",匹配 "caaaaaaandy" 中的前面三个 "a"。注意,当匹配 "caaaaaaandy" 时,即使原始字符串拥有更多的 "a",匹配项也是 "aaa"。

正则的属性

名称 描述
constructor 创建该正则对象的构造函数。
global 是否开启全局匹配,也就是匹配目标字符串中所有可能的匹配项,而不是只进行第一次匹配。
ignoreCase 在匹配字符串时是否要忽略字符的大小写。
lastIndex 下次匹配开始的字符串索引位置。
multiline 是否开启多行模式匹配(影响 ^ 和 $ 的行为)。
source 正则对象的源模式文本
sticky 是否开启粘滞匹配。
__parent__ Properties inherited from Object
__proto__ Properties inherited from Object

正则的方法

名称 描述
exec() 在目标字符串中执行一次正则匹配操作。
test() 测试当前正则是否能匹配目标字符串。
toSource() 返回一个字符串,其值为该正则对象的字面量形式。覆盖了Object.prototype.toSource 方法.
toString() 返回一个字符串,其值为该正则对象的字面量形式。覆盖了Object.prototype.toString() 方法。
__defineGetter__,__defineSetter__,hasOwnProperty,isPrototypeOf,__lookupGetter__,__lookupSetter__,__noSuchMethod__,propertyIsEnumerable,toLocaleString,unwatch,valueOf,watchMethods inherited from Object

例子

例子:使用正则改变数据结构

下例使用replace方法 (继承自String)去匹配姓名first last输出新的格式last,first。脚本中使用$1 和$2指明括号里先前的匹配.

var re = /(w+)s(w+)/;
var str = "John Smith";
var newstr = str.replace(re,"$2,$1");
print(newstr);

显示 "Smith,John".

例子:在多行中使用正则表达式

var s = "Please yesnmake my day!";
s.match(/yes.*day/);
// Returns null
s.match(/yes[^]*day/);
// Returns 'yesnmake my day'

例子: 使用带有 ”sticky“ 标志的正则表达式

该例展示了,如何在正则表达式上使用 sticky 标志,用来匹配多行输入的单独行。

var text = "First linensecond line";
var regex = /(S+) linen?/y;

var match = regex.exec(text);
print(match[1]);  // prints "First"
print(regex.lastIndex); // prints 11

var match2 = regex.exec(text);
print(match2[1]); // prints "Second"
print(regex.lastIndex); // prints "22"

var match3 = regex.exec(text);
print(match3 === null); // prints "true"

可以使用try { … } catch { … }来测试运行时(run-time)是否支持sticky标志。这种情况下,必须使用eval(…)表达式或RegExp(regex-string,flags-string)语法(这是由于/regex/flags表示法将会在编译时刻被处理,因此在catch语句块处理异常前就会抛出一个异常。例如:

var supports_sticky;
try { RegExp('','y'); supports_sticky = true; }
catch(e) { supports_sticky = false; }
alert(supports_sticky); // alerts "false" in Firefox 2,"true" in Firefox 3+

例子:使用正则表达式和 Unicode 字符

正如上面表格提到的,wW只会匹配基本的 ASCII 字符;如 'a' 到 'z'、 'A' 到 'Z'、 0 到 9 及 '_'。为了匹配其他语言中的字符,如西里尔(Cyrillic)或 希伯来语(Hebrew),要使用uhhhh,"hhhh" 表示以十六进制表示的字符的 Unicode 值。下例展示了怎样从一个单词中分离出 Unicode 字符。

var text = "Образец text на русском языке";
var regex = /[u0400-u04FF]+/g;

var match = regex.exec(text);
print(match[1]);  // prints "Образец"
print(regex.lastIndex);  // prints "7"

var match2 = regex.exec(text);
print(match2[1]);  // prints "на" [did not print "text"]
print(regex.lastIndex);  // prints "15"

// and so on

这里有一个外部资源,用来获取 Unicode 中的不同区块范围:Regexp-unicode-block

例子:从 URL 中提取子域名

var url = "http://xxx.domain.com";
print(/[^.]+/.exec(url)[0].substr(7)); // prints "xxx"

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读