使用变量分组解析带有ruby正则表达式的字符串的更优雅的方法？

发布时间：2020-12-17 01:27:23 所属栏目：百科来源：网络整理

导读：目前我有一个看起来像这样的正则表达式： ^(cat|dog|bird){1}(cat|dog|bird)?(cat|dog|bird)?$ 它匹配一长串单词的至少1个,最多3个实例,并通过相应的变量使每个组的匹配单词可用. 有没有办法修改它,以便我可以返回字符串中每个单词的结果,而不预先指定组的数

目前我有一个看起来像这样的正则表达式：

^(cat|dog|bird){1}(cat|dog|bird)?(cat|dog|bird)?$

它匹配一长串单词的至少1个,最多3个实例,并通过相应的变量使每个组的匹配单词可用.

有没有办法修改它,以便我可以返回字符串中每个单词的结果,而不预先指定组的数量？

^(cat|dog|bird)+$

有效,但只能分别返回最后一个匹配,因为只有一个组.

解决方法

好的,所以我找到了解决方案.

它似乎不可能创建一个未知数量的组,所以我开始寻找另一种方法来实现预期的结果：能够判断一个字符串是否由给定列表中的单词组成;并匹配每个位置可能的最长单词.

我一直在阅读????JeffreyE. F. Friedl的Mastering Regular Expressions,它为我揭示了一些事情.事实证明,基于NFA的Regexp引擎(如Ruby中使用的引擎)是顺序的,也是懒惰/贪婪的.这意味着您可以使用您为其选择的顺序来指定模式的匹配方式.这解释了为什么扫描返回变量结果,它正在查找列表中符合条件的第一个单词,然后转到下一个匹配.根据设计,它不是寻找最长的匹配,而是第一个.因此,为了纠正这一点,我需要做的就是将用于生成正则表达式的单词数组从字母顺序重新排序到长度顺序(从最长到最短).

array = %w[ as ascarid car id ]
list = array.sort_by {|word| -word.length } 
regexp = Regexp.union(list)

现在扫描找到的第一个匹配将是可用的最长的单词.通过扫描判断字符串是否仅包含列表中的单词也很简单：

if "ascarid".scan(regexp).join.length == word.length
  return true
else
  return false
end

感谢所有回复此问题的人,我希望这将有助于其他人.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!