perl – 使用bash shell自动删除由关键字分隔的千兆字节行的最快
发布时间:2020-12-15 23:27:21 所属栏目:大数据 来源:网络整理
导读:例如,给定一行a11b12c22d322 e … break的字段是数字或空格,我们想将其转换为 abcde... sed需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作. 编辑: 谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存?他
例如,给定一行a11b12c22d322 e … break的字段是数字或空格,我们想将其转换为
a b c d e ... sed需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作. 编辑: 谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存?他们一次读入内存的内容是多少? 解决方法
如果您使用gawk(我相信这是Linux上的默认awk),您可以使用RS参数指定多位数字或空格被识别为行终止符而不是换行符.
awk '{print}' RS="[[:digit:]]+| +" file.txt 至于你的第二个问题,所有这些程序都需要读取一些固定数量的字节,并在内部缓冲区中搜索其行分隔符的概念,以模拟一次读取一行的外观.为了防止它在搜索行尾时读取太多数据,您需要更改程序终止行的想法. 大多数语言允许您执行此操作,但只允许您指定单个字符.通过允许您指定正则表达式来识别行尾字符,gawk可以轻松实现.这样您就不必自己实现固定大小的缓冲区和行尾搜索. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |