加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式 – 为什么大多数语言无效地执行通配符正则表达式?

发布时间:2020-12-14 06:27:52 所属栏目:百科 来源:网络整理
导读:我获得了关于许多现代语言中正则表达式实现的以下文章的链接. http://swtch.com/~rsc/regexp/regexp1.html TL; DNR:固定$n $的某些正则表达式,如(a?)^ na ^ n取指数时间匹配,例如,^ n,因为它在匹配时通过字符串的追溯来实现?部分.通过保持状态列表将其作
我获得了关于许多现代语言中正则表达式实现的以下文章的链接.

http://swtch.com/~rsc/regexp/regexp1.html

TL; DNR:固定$n $的某些正则表达式,如(a?)^ na ^ n取指数时间匹配,例如,^ n,因为它在匹配时通过字符串的追溯来实现?部分.通过保持状态列表将其作为NFA来实现,这显然是因为明显的原因

每个语言实际实现这些的细节不是非常详细(而且文章很旧),但我很好奇:使用NFA而不是其他实现技术的缺点是什么?我唯一可以想出的是,大多数图书馆的所有钟声和口哨声都是:a)为所有这些功能构建NFA是不切实际的或者b)上面的表达和其他一些可能更多的表现问题常见,操作.

虽然可以很好地构建处理这些复杂情况的DFA(由Henry Spencer编写的 Tcl RE engine是一个例证证明;文章链接表明了它与其性能数据),但也非常困难.

一个关键的事情是,如果你可以检测到你不需要匹配的组信息,那么你可以(对于许多RE,特别是那些没有内部反向引用的RE),将RE转换为仅使用括号进行分组的RE,从而允许更有效的RE被生成(so(a?){n} a {n} – 我使用现代常规语法 – 变得有效地等效于{n,2n}).反向引用突破了主要优化;在亨利的RE代码(以上提到)中并没有什么是代码注释,将其描述为“黑色泻湖的特征”.这是我在代码中阅读的最好的评论之一(除了引用描述算法编码的学术论文).

另一方面,具有递归下降评估方案的Perl / PCRE风格引擎可以将一组更为语法的语义归结为混合的贪婪RE,还有许多其他的东西. (在最后端,递归模式 – (?R)等是完全不可能的自动机理论方法,它们需要一个堆栈来匹配,使它们正式不是正则表达式.)

在实际层面上,构建NFA和DFA的成本可能相当高.您需要聪明的缓存才能使其不太贵.而且在实际的层面上,PCRE和Perl的实现已经有更多的开发人员应用于它们.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读