数据库 – 如何使用Lucene对数据库进行最佳搜索？

发布时间：2020-12-12 07:00:00 所属栏目：MsSql教程来源：网络整理

导读：我正在研究针对我们的数据库提供更好的搜索功能的机制.它目前是一个巨大的瓶颈(导致长期查询损害我们的数据库性能). 我的老板希望我查看Solr,但仔细观察后,我们似乎真的想要一些与Lucene本身的数据库集成机制. 从Lucene FAQ开始,他们推荐Hibernate Search,Com

我正在研究针对我们的数据库提供更好的搜索功能的机制.它目前是一个巨大的瓶颈(导致长期查询损害我们的数据库性能).

我的老板希望我查看Solr,但仔细观察后,我们似乎真的想要一些与Lucene本身的数据库集成机制.

从Lucene FAQ开始,他们推荐Hibernate Search,Compass和DBSight.

作为我们当前技术堆栈的背景,我们在Tomcat上使用直接JSP,没有Hibernate,没有其他框架……只针对DB2数据库直接使用Java,JSP和JDBC.

鉴于此,似乎Hibernate Search可能更难以集成到我们的系统中,尽管在这样的集成之后可以选择使用Hibernate.

有没有人可以使用其中一种工具(或其他类似的基于Lucene的解决方案)分享可能有助于选择合适工具的经验？

它需要是一个FOSS解决方案,理想情况下将自动更新来自数据库的更新Lucene(虽然有效),而无需额外的努力在更改时通知工具(否则,似乎滚动我自己的Lucene解决方案将只是一样好).此外,我们有多个应用程序服务器只有一个数据库(故障转移),所以如果能够轻松地无缝地使用所有应用程序服务器的解决方案,那就太好了.

我现在继续检查选项,但利用其他人的经验会非常有帮助.

解决方法

当你说“搜索数据库”时,你的意思是什么？

关系数据库和信息检索系统使用非常不同的方法是有充分理由的.你在搜索什么样的数据？你执行什么样的查询？

如果我要在数据库之上实现倒排索引,就像Compass那样,我就不会使用他们的方法,即用BLOB实现Lucene的目录抽象.相反,我将实现Lucene的IndexReader抽象.

关系数据库非常能够维护索引. Lucene在此上下文中带来的价值是其分析功能,这对非结构化文本记录最有用.一种好的方法可以利用每种工具的优势.

随着对索引的更新,Lucene会创建更多的段(附加文件或BLOB),这会降低性能,直到使用昂贵的“优化”过程.大多数数据库将在每次索引更新时分摊此成本,从而为您提供更稳定的性能.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!