加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

如何使用Unix命令在文本文件中收集字符使用情况统计信息?

发布时间:2020-12-16 01:33:14 所属栏目:安全 来源:网络整理
导读:我有一个使用OCR软件创建的文本文件 – 大小约为1兆字节. 一些不常见的字符出现在整个文档中,其中大多数是OCR错误. 我想找到文档中使用的所有字符,以便轻松发现错误(如UNIQ命令,但对于字符,而不是行). 我在Ubuntu上. 我应该使用什么Unix命令来显示文本文件中
我有一个使用OCR软件创建的文本文件 – 大小约为1兆字节.
一些不常见的字符出现在整个文档中,其中大多数是OCR错误.

我想找到文档中使用的所有字符,以便轻松发现错误(如UNIQ命令,但对于字符,而不是行).

我在Ubuntu上.
我应该使用什么Unix命令来显示文本文件中使用的所有字符?

这应该做你想要的:
cat inputfile | sed 's/(.)/1n/g' | sort | uniq -c

前提是sed将文件中的每个字符单独放在一行上,然后是通常的排序| uniq -c序列除去每个发生的唯一字符之外的所有字符,并提供每个字符发生次数的计数.

另外,你可以追加|将-n排序到整个序列的末尾,以按每个字符出现的次数对输出进行排序.例:

$echo hello |  sed 's/(.)/1n/g' | sort | uniq -c | sort -n
  1 
  1 e
  1 h
  1 o
  2 l

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读