java – 如何验证文件是否可以被人读取?
我如何确保一个文件是可读的人类.
这样我本来想检查一下这个文件是一个txt,一个yml,一个doc,一个json文件等等. 问题是在这种情况下,我想执行此检查,文件扩展名是误导的,我的意思是一个纯文本文件(应该是.txt)有一个.d和其他的扩展名: – ( 验证文件可以被人类阅读的最好方法是什么? 到目前为止,我已经尝试过我的运气与扩展如下: private boolean humansCanRead(String extention) { switch (extention.toLowerCase()) { case "txt": case "doc": case "json": case "yml": case "html": case "htm": case "java": case "docx": return true; default: return false; } } 但是正如我所说的扩展不如预期的那样. 编辑:为了澄清,我正在寻找一个平台独立的解决方案,而不使用外部库,而为了缩小我的意思是“人类可读”,我的意思是包含任何语言字符的纯文本文件,我也不会真的如果文件中的文本是有意义的,如果它是编码的,我真的不在乎这一点. 感谢所有的回应! :D 解决方法
对于某些文件,可以查看可打印ASCII范围内的字节比例将有所帮助.如果超过75%的字节在前几百个字节的范围内,那么它可能是“可读的”.
某些文件有标题,如UTF文件上的各种形式的BoM,启动MS doc文件的0xA5EC或.exe开头的“MZ”签名,可以告诉您文件是否可读. 许多现代文本文件采用UTF格式之一,通常可以通过读取文件的第一个块来识别,即使它们没有BoM. 基本上,你将需要运行很多不同的文件类型,看看你是否得到一个匹配.将文件的第一个千字节加载到内存中,并对其进行大量不同的检查.一旦你有一些数据,你可以订购检查首先查找最常见的格式. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |