加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

perl – 使用bash shell自动删除由关键字分隔的千兆字节行的最快

发布时间:2020-12-15 23:27:21 所属栏目:大数据 来源:网络整理
导读:例如,给定一行a11b12c22d322 e … break的字段是数字或空格,我们想将其转换为 abcde... sed需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作. 编辑: 谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存?他
例如,给定一行a11b12c22d322 e … break的字段是数字或空格,我们想将其转换为

a
b
c
d
e
...

sed需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作.

编辑:

谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存?他们一次读入内存的内容是多少?

解决方法

如果您使用gawk(我相信这是Linux上的默认awk),您可以使用RS参数指定多位数字或空格被识别为行终止符而不是换行符.

awk '{print}' RS="[[:digit:]]+| +" file.txt

至于你的第二个问题,所有这些程序都需要读取一些固定数量的字节,并在内部缓冲区中搜索其行分隔符的概念,以模拟一次读取一行的外观.为了防止它在搜索行尾时读取太多数据,您需要更改程序终止行的想法.

大多数语言允许您执行此操作,但只允许您指定单个字符.通过允许您指定正则表达式来识别行尾字符,gawk可以轻松实现.这样您就不必自己实现固定大小的缓冲区和行尾搜索.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读