加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

ruby – 用于查找文本主体AKA趋势主题中最常见短语的有效方法

发布时间:2020-12-17 01:57:42 所属栏目:百科 来源:网络整理
导读:我之前在这个主题上问了一个 similar question,我最终得到了几个有效的解决方案,一个基于bloom过滤器ngrams,另一个基于哈希表ngrams.两种解决方案都能很好地处理小数据集( 1000文本,通常是推文),但计算时间呈指数增长,这意味着10,000次可能需要数小时. 我目
我之前在这个主题上问了一个 similar question,我最终得到了几个有效的解决方案,一个基于bloom过滤器ngrams,另一个基于哈希表ngrams.两种解决方案都能很好地处理小数据集(< 1000文本,通常是推文),但计算时间呈指数增长,这意味着10,000次可能需要数小时. 我目前正在使用Ruby,也许,这就是问题,但是有没有其他解决方案或方法我可以尝试解决这个问题?

解决方法

如果您希望在大型数据集中进行文本搜索,则可能需要查看类似solr的内容.有一个非常容易设置的solr gem叫做sunspot http://outoftime.github.com/sunspot/

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读