正则表达式 – 使用基于DFA(线性时间)正则表达式捕获组:可能吗
是否可以使用基于DFA的正则表达式实现捕获组,同时保持相对于输入长度的线性时间复杂度?
直觉上我想不是,因为子集构造过程不知道它可能落入哪个捕获组,但这是我第一次意识到这可能是一个潜在的问题,所以我不知道.
是的 – 至少在捕获组是确定性的时候.考虑示例regex / a |(a)/;匹配输入“a”可以产生捕获的组或没有. 我认为捕获组可以基于使用finite state transducers的理论基础,这类似于自动机,但也可以在改变状态时输出字符串.您可以回显输入,但例如用括号括起每个捕获组.
实际上,这是一个问题.我认为您可以通过使用捕获状态标记您的集合来解决它,同样可以区分结果DFA的状态.您可能无法像上面那样为正则表达式生成完全确定的自动机,如Wikipedia writes:“一些非确定性传感器不允许等效的确定性传感器”. 但是,可以修改子集构造过程,参见Determinization of Transducers.他们的算法似乎围绕以下内容:
例如,正则表达式/ ab |(a)c /和偶数/(a [bc])| ad /可以被分解为确定性换能器.请注意,他们的内存表示可能比没有捕获组时大得多. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |