导入富文档时是否有SOLR的最佳实践schema.xml?
发布时间:2020-12-16 23:27:49 所属栏目:百科 来源:网络整理
导读:我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF. 在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用? 我一直在对默认模式进行调整,以尝试在日期修改时间上
我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.
在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用? 我一直在对默认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的默认输出足够时这些文件应该如何. 如果没有最佳实践schema.xml和/或solrconfig.xml这样的东西,我也会对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章. 欢迎任何指示! 解决方法
在书籍驯服文本(http://www.manning.com/ingersoll/)中你有一些参考
ExtractingRequestHandler.本书是关于使用solr,tika或lucene等开源工具处理文本的. 我读到第5章,到现在为止,本书解释了如何通过修改文件schema.xml来创建不同类型的字段以及在查询或索引中处理来扩展solr功能. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |