加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

shell – 逐步通过大文件

发布时间:2020-12-15 21:42:53 所属栏目:安全 来源:网络整理
导读:我有几个大型数据文件(约100MB-1GB的文本)和一个数万个时间戳的排序列表,它们索引感兴趣的数据点.时间戳文件如下所示: 123451546767256182387199364... 数据文件如下所示: Line of text12345 0.234 0.123 2.321More textSome unimportant data14509 0.987
我有几个大型数据文件(约100MB-1GB的文本)和一个数万个时间戳的排序列表,它们索引感兴趣的数据点.时间戳文件如下所示:

12345
15467
67256
182387
199364
...

数据文件如下所示:

Line of text
12345 0.234 0.123 2.321
More text
Some unimportant data
14509 0.987 0.543 3.600
More text
15467 0.678 0.345 4.431

第二个文件中的数据全部按时间戳排列.我想使用第一个文件的时间戳来浏览第二个文件,在输出文件中打印时间戳和第四个数据项.我一直在用这个:

grep -wf time.stamps data.file | awk '{print $1 "t" $4 }'  >> output.file

对于每个数据文件,这需要一天的顺序.问题是这个命令搜索整个数据文件中的每一行time.stamps,但我只需要搜索从最后一个数据点获取.有没有办法加快这个过程?

解决方法

你可以完全用awk做到这一点……

awk 'NR==FNR{a[$1]++;next}($1 in a){print $1,$4}' timestampfile datafile

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读