加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

ruby-on-rails – 从Rails应用程序(Word,PDF,Excel等)搜索附件

发布时间:2020-12-17 02:16:07 所属栏目:百科 来源:网络整理
导读:我给Stack Overflow的第一篇帖子请你温柔!我即将为客户启动一个新的 Ruby on Rails(3.1)项目.他们的要求之一是有一个搜索引擎,它将索引大约2,000个文档,这些文档是PDF,Word,Excel和HTML的混合. 我本来希望使用思考 – 狮身人面像或Texticle(在https://www.r
我给Stack Overflow的第一篇帖子请你温柔!我即将为客户启动一个新的 Ruby on Rails(3.1)项目.他们的要求之一是有一个搜索引擎,它将索引大约2,000个文档,这些文档是PDF,Word,Excel和HTML的混合.

我本来希望使用思考 – 狮身人面像或Texticle(在https://www.ruby-toolbox.com/categories/rails_search.html最受欢迎),但据我所知:

> Texticle需要PostgreSQL.我在使用MySQL.
> thinking-sphinx不会索引文件系统上的文件.
>即使我将附件保存到数据库中,思考 – sphinx仍然无法正常工作,因为它需要纯文本(根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)

所以我有两个选择:

>选择其他搜索工具
>尝试将附件的纯文本版本提取到数据库中,以便思考sphinx进行阅读

你推荐哪种方法?

如果它是一个不同的搜索工具,哪一个?我的要求是非常基本的,所以我真的很喜欢一个很容易设置的,并且有很多文档,示例和教程!

如果它正在提取,你能推荐常用文件类型的提取器,如PDF,Excel和HTML吗?

感谢大家.非常感谢您的帮助.

解决方法

好吧,我以前没有做过二进制文件索引,但显然Solr支持它看 Indexing files with SPHINX/ultrasphinx和
http://wiki.apache.org/solr/ExtractingRequestHandler Solr有很多可用的宝石,太阳黑子似乎是一个受欢迎的宝石 http://outoftime.github.com/sunspot/虽然太阳黑子似乎没有内置支持Solr Cells,但似乎有一些工作进入它 https://github.com/tomasc/sunspot_cell那里可能有更好的选择,但这应该给你一个很好的起点.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读