linux – 为什么uniq不能处理这个大文件?庆典
发布时间:2020-12-13 19:25:52 所属栏目:Linux 来源:网络整理
导读:我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行) 我执行此命令: cat .temp_occ | uniq -c | sort -k1,1nr -k2 distribution.txt 问题是
我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行)
我执行此命令: cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt 问题是它给了我一个小小的错误:它认为我的语言不同. 306 continua 278 apertura 211 eventi 189 murah 182 giochi 167 giochi 你可以看到,与giochi重复两次 在文件的底部它变得更糟,它看起来像这样: 1 win 1 win 1 win 1 win 1 win 1 win 1 win 1 win 1 win 1 winchester 1 wind 1 wind 对于所有的话 对于这个愚蠢的问题,我真的很抱歉,但我有点贝壳编程的菜鸟. 非常感谢 解决方法
首先尝试排序:
cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |