加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

如何判断文件是文本还是二进制

发布时间:2020-12-14 17:02:56 所属栏目:大数据 来源:网络整理
导读:今天潜水时看到有人询问判别文件内容是否为文本的方法,什么回答都有,主要是: 看后缀:这个比较弱,不要说在*nix下通常都不用后缀,就算是Win下,一方面有很多不知名的后缀;另一方面,后缀是可以随便改的,叫txt的可能是个txt,也可能是个马。 写成文本,

今天潜水时看到有人询问判别文件内容是否为文本的方法,什么回答都有,主要是:

  1. 看后缀:这个比较弱,不要说在*nix下通常都不用后缀,就算是Win下,一方面有很多不知名的后缀;另一方面,后缀是可以随便改的,叫txt的可能是个txt,也可能是个马。
  2. 写成文本,然后和原文件比较大小。这个靠谱,就是代码怎么看怎么不好看。
  3. 判断是否存在控制字符:这个也靠谱,但是难度比较大,因为有些Unicode文件在开头放了控制字符,所以必须处理这种特殊情况。(我记得有些编辑器就是这样判断文件是否为二进制的)

这些答案都算靠谱,也有不靠谱的。居然有人回答:文本终究也是二进制的,所以你没办法判断!NND,这就好像说:Women 本质上就是 Men(人),所以你没法判断 Women 和 Men (男人)

言归正传,除了以上的三种方法外,如果要求不是那么严格,可以用文件的mime type来进行判断,以下的Groovy代码虽然不太直观,但是胜在短小:

def isText = { it?.isFile() && it.toURI().toURL().openConnection().contentType?.startsWith('text') }
在Java下道理是一样的,先获得URL对象,然后打开连接,获取内容类型……只不过多写几行罢了。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读