regex – Perl程序,可以有效地处理目录中的500,000个小文件

发布时间：2020-12-16 06:07:21 所属栏目：大数据来源：网络整理

导读：我每晚都在处理一个大目录.它每晚累积大约100万个文件,其中一半是我需要根据内容移动到不同目录的.txt文件. 每个.txt文件都是以管道分隔的,只包含20条记录.记录6是包含确定将文件移动到哪个目录所需的信息的记录. 记录示例： A|CHNL_ID|4 在这种情况下,文件

我每晚都在处理一个大目录.它每晚累积大约100万个文件,其中一半是我需要根据内容移动到不同目录的.txt文件.

每个.txt文件都是以管道分隔的,只包含20条记录.记录6是包含确定将文件移动到哪个目录所需的信息的记录.

记录示例：

A|CHNL_ID|4

在这种情况下,文件将被移动到/ out / 4.

此脚本的处理速度为每小时80,000个文件.

有关如何加快速度的建议吗？

opendir(DIR,$dir) or die "$!n";
while ( defined( my $txtFile = readdir DIR ) ) {
    next if( $txtFile !~ /.txt$/ );
    $cnt++;

    local $/;
    open my $fh,'<',$txtFile or die $!,$/;
    my $data  = <$fh>;
    my ($channel) =  $data =~ /A|CHNL_ID|(d+)/i;
    close($fh);

    move ($txtFile,"$outDir/$channel") or die $!,$/;
}
closedir(DIR);

解决方法

尝试类似的东西：

print localtime()."n";                          #to find where time is spent
opendir(DIR,$dir) or die "$!n";
my @txtFiles = map "$dir/$_",grep /.txt$/,readdir DIR;
closedir(DIR);

print localtime()."n";
my %fileGroup;
for my $txtFile (@txtFiles){
    # local $/ = "n";                           #n or other record separator
    open my $fh,$txtFile or die $!;
    local $_ = join("",map {<$fh>} 1..6);      #read 6 records,not whole file
    close($fh);
    push @{ $fileGroup{$1} },$txtFile
      if /A|CHNL_ID|(d+)/i or die "No channel found in $_";
}

for my $channel (sort keys %fileGroup){
  moveGroup( @{ $fileGroup{$channel} },"$outDir/$channel" );
}
print localtime()." finiton";

sub moveGroup {
  my $dir=pop@_;
  print localtime()." <- start $dirn";
  move($_,$dir) for @_;  #or something else if each move spawns sub process
  #rename($_,$dir) for @_;
}

这将作业分成三个主要部分,您可以在每个部分计算时间以查找花费大部分时间的位置.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!