perl – 使用bash shell自动删除由关键字分隔的千兆字节行的最快

发布时间：2020-12-15 23:27:21 所属栏目：大数据来源：网络整理

导读：例如,给定一行a11b12c22d322 e … break的字段是数字或空格,我们想将其转换为 abcde... sed需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作. 编辑：谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存？他

例如,给定一行a11b12c22d322 e … break的字段是数字或空格,我们想将其转换为

a
b
c
d
e
...

sed需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作.

编辑：

谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存？他们一次读入内存的内容是多少？

解决方法

如果您使用gawk(我相信这是Linux上的默认awk),您可以使用RS参数指定多位数字或空格被识别为行终止符而不是换行符.

awk '{print}' RS="[[:digit:]]+| +" file.txt

至于你的第二个问题,所有这些程序都需要读取一些固定数量的字节,并在内部缓冲区中搜索其行分隔符的概念,以模拟一次读取一行的外观.为了防止它在搜索行尾时读取太多数据,您需要更改程序终止行的想法.

大多数语言允许您执行此操作,但只允许您指定单个字符.通过允许您指定正则表达式来识别行尾字符,gawk可以轻松实现.这样您就不必自己实现固定大小的缓冲区和行尾搜索.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!