加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

perl – 在压缩存档内的文本文件上运行`head`,无需解压缩存档

发布时间:2020-12-16 06:24:15 所属栏目:大数据 来源:网络整理
导读:问候, 我接管了之前的团队并编写了处理csv文件的ETL作业.我在ubuntu上使用了shell脚本和perl的组合. csv文件很大;他们以压缩档案的形式到达.解压缩,很多都超过30Gb – 是的,那是G 传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行
问候,

我接管了之前的团队并编写了处理csv文件的ETL作业.我在ubuntu上使用了shell脚本和perl的组合. csv文件很大;他们以压缩档案的形式到达.解压缩,很多都超过30Gb – 是的,那是G

传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行复制到配置文件中,然后重新压缩整个文件.有些日子,这需要很多小时的处理时间,没有任何好处.

你能否建议一种方法只从压缩档案中的每个文件中提取第一行(或前几行),而不完全解压缩档案?

解决方法

unzip命令行实用程序具有-p选项,该文件将文件转储为标准输出.只需将其输入 head,它就不会费心将整个文件解压缩到磁盘上.

或者,从perldoc IO::Compress::Zip开始:

my ($status,$bufferRef);
my $member = $zip->memberNamed( 'xyz.txt' );
$member->desiredCompressionMethod( COMPRESSION_STORED );
$status = $member->rewindData();
die "error $status" unless $status == AZ_OK;
while ( ! $member->readIsDone() )
{
   ( $bufferRef,$status ) = $member->readChunk();
   die "error $status" if $status != AZ_OK && $status != AZ_STREAM_END;
   # do something with $bufferRef:
   print $$bufferRef;
}
$member->endRead();

修改以适应,即通过迭代文件列表$zip-> memberNames(),并只读取前几行.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读