加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – 在Lucene中获取术语频率

发布时间:2020-12-14 05:39:19 所属栏目:Java 来源:网络整理
导读:是否有一种快速简便的方法可以从Lucene索引中获取术语频率,而无需通过TermVectorFrequencies类进行,因为这需要花费大量时间来处理大型集合? 我的意思是,是否有类似TermEnum的东西,它不仅有文档频率,还有术语频率? 更新: 使用TermDocs太慢了. 解决方法 使
是否有一种快速简便的方法可以从Lucene索引中获取术语频率,而无需通过TermVectorFrequencies类进行,因为这需要花费大量时间来处理大型集合?

我的意思是,是否有类似TermEnum的东西,它不仅有文档频率,还有术语频率?

更新:
使用TermDocs太慢了.

解决方法

使用 TermDocs获取给定文档的术语频率.与文档频率一样,您可以使用感兴趣的术语从IndexReader获取术语文档.

在不失一些普遍性的情况下,您将找不到比TermDoc更快的方法. TermDocs直接从索引段中的“.frq”文件中读取,其中每个术语频率按文档顺序列出.

如果这“太慢”,请确保您已优化索引以将多个段合并为一个段.按顺序迭代文档(跳过正常,但不能有效地在文档列表中来回跳转).

您的下一步可能是进行额外处理,以创建更加专业化的文件结构,从而省略SkipData.我个人会寻找一个更好的算法来实现我的目标,或提供更好的硬件 – 大量的内存,要么持有RAMDirectory,要么提供给操作系统在自己的文件缓存系统上使用.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读