加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – 读取gz文件并跟踪文件中的位置

发布时间:2020-12-14 19:13:53 所属栏目:Java 来源:网络整理
导读:那么,情况如下: 我必须阅读大的.gz档案(GB)和一种“索引”它们以后能够使用随机访问检索特定的部分. 换句话说,我希望逐行读取存档,并能够获取文件中任何此类行的特定位置. (这样我可以根据要求直接跳到这些特定的位置). (PS:它是UTF-8所以我们不能假设1个

那么,情况如下:

我必须阅读大的.gz档案(GB)和一种“索引”它们以后能够使用随机访问检索特定的部分.
换句话说,我希望逐行读取存档,并能够获取文件中任何此类行的特定位置. (这样我可以根据要求直接跳到这些特定的位置). (PS:……它是UTF-8所以我们不能假设1个字节== 1个字符.)

所以,基本上,我只需要一个BufferedReader来跟踪它在文件中的位置.但是,这似乎并不存在.

有什么可用的或者我必须自己滚动吗?

一些额外的评论:

>我不能直接使用BufferedReader,因为文件位置对应于到目前为止已缓冲的内容.换句话说,内部缓冲区大小的倍数而不是行位置.
>出于性能原因,我无法直接使用InputStreamReader.无缓冲可能会减慢速度,顺便说一下,缺乏读取线条的便捷方法.
>我不能使用RandomAccessFile,因为1.它是压缩的,而且2. RandomAccessFile使用“修改的”UTF-8

我想最好的是使用一种缓冲读取器来跟踪文件位置和缓冲区偏移…但这听起来非常麻烦.但也许我错过了什么.也许已经存在一些事情要做,一行一行地读取文件并跟踪位置(即使压缩).

谢谢你的提示,

阿尔诺

最佳答案
我认为jzran可能正是您所寻找的:

It’s a Java library based on the
zran.c sample from zlib.

You can preprocess a large gzip
archive,producing an “index” that can
be used for random read access.

You can balance between index size and
access speed.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读