加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

如何在Perl中有效地匹配许多不同的正则表达式模式?

发布时间:2020-12-15 21:15:49 所属栏目:大数据 来源:网络整理
导读:我有越来越多的正则表达式,我用它来解析搜索“有趣”错误和调试语句的日志文件.我现在将它们分成5个桶,其中大部分都落入3个大桶中.到目前为止,我有超过140种模式,而且这个模式正在不断增长. 大多数正则表达式都很简单,但它们也相当独特,所以我用单一模式捕获
我有越来越多的正则表达式,我用它来解析搜索“有趣”错误和调试语句的日志文件.我现在将它们分成5个桶,其中大部分都落入3个大桶中.到目前为止,我有超过140种模式,而且这个模式正在不断增长.

大多数正则表达式都很简单,但它们也相当独特,所以我用单一模式捕获多个匹配的机会很少.由于我匹配的性质,模式往往是模糊的,因此很少匹配,所以我在每个输入行上做一个TON工作,最终结果是它无法匹配任何东西或匹配最后的通用之一.

由于输入的数量(数百兆字节的日志文件),我有时会等待一两分钟才能完成脚本.因此,我希望有一个更有效的解决方案.不过,我对牺牲速度的清晰度并不感兴趣.

我目前的正则表达式设置如下:

if (($line =~ m{Failed in routing out}) ||
  ($line =~ m{Agent .+ failed}) ||
  ($line =~ m{Record Not Exist in DB}) ||
         ...

是否有更好的方法来构建它,以便它更有效,但仍然可维护?谢谢!

解决方法

你可能想看看 Regexp::Assemble.它的目的是处理这类问题.

从模块的概要中提升代码:

use Regexp::Assemble;

my $ra = Regexp::Assemble->new;
$ra->add( 'ab+c' );
$ra->add( 'ab+-' );
$ra->add( 'awd+' );
$ra->add( 'ad+' );
print $ra->re; # prints a(?:w?d+|b+[-c])

你甚至可以从一个单独的文件中啜饮你的正则表达式集合.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读