加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

导入富文档时是否有SOLR的最佳实践schema.xml?

发布时间:2020-12-16 23:27:49 所属栏目:百科 来源:网络整理
导读:我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF. 在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用? 我一直在对默认模式进行调整,以尝试在日期修改时间上
我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.

在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用?

我一直在对默认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的默认输出足够时这些文件应该如何.

如果没有最佳实践schema.xml和/或solrconfig.xml这样的东西,我也会对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章.

欢迎任何指示!

解决方法

在书籍驯服文本(http://www.manning.com/ingersoll/)中你有一些参考
ExtractingRequestHandler.本书是关于使用solr,tika或lucene等开源工具处理文本的.

我读到第5章,到现在为止,本书解释了如何通过修改文件schema.xml来创建不同类型的字段以及在查询或索引中处理来扩展solr功能.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读