加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

perl并行处理大文件

发布时间:2020-12-16 00:15:25 所属栏目:大数据 来源:网络整理
导读:有时候会需要对大文件进行并行处理. 对于文本文件,需要保证行的完整性. 一种是快速跳过不需要的行 #!/bin/env perluse strict;my $m=$ARGV[0]; #分成m份my $l=$ARGV[1]; #第l份my $file="test1.txt";#my $line=`wc -l $file`;#my ($linenum)=$line=~/(d+)/;

有时候会需要对大文件进行并行处理.

对于文本文件,需要保证行的完整性.

一种是快速跳过不需要的行

#!/bin/env perl
use strict;
my $m=$ARGV[0];  #分成m份
my $l=$ARGV[1];  #第l份

my $file="test1.txt";

#my $line=`wc -l $file`;
#my ($linenum)=$line=~/(d+)/;
my $linenum=10;
my $n=int($linenum/$m);  #每份做n行

open( READ,"<$file" );
my $i=0;
while (<READ>) { 
  #print $i;
  if ($i>=($l-1)*$n){
  &doit();
  }
  $i++;
  last if ($i>=$l*$n || $i>linenum)
}

sub doit(){
  print $_;
}
close READ;


改进一些的方法是使用seek,但是需要处理不完整行,可以让前一个进程多处理一行,后一个进程少处理一行

?

#!/bin/env perl
use strict;
my $m=$ARGV[0];  #分成m份
my $l=$ARGV[1];  #第l份

my $file="test1.txt";

my @args = stat ($file);
my $size = $args[7];

my $n=int($size/$m);  #每份做nbytes

open( READ,"<$file" );
seek READ,(($l-1)*$n),0;
  
  #非第一份,少读第一行
  if($l>1){
  	my $tmpline = <READ>;
  }
  
while (<READ>) { 
   &doit();
   my $position = tell(READ);
  last if ($position> $l*$n || $position>=$size); #多读一行 
}

sub doit(){
  print $_;
}
close READ;

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读