加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

algorithm – 通过字符串相似性对搜索结果进行分组的最有效方法

发布时间:2020-12-14 04:33:45 所属栏目:大数据 来源:网络整理
导读:我正在研究sql server 2008 DB和asp.net mvc web电子商务应用程序. 我有不同的用户将他们的产品提供给数据库,我想比较具有相似名称的产品的价格. 我知道字符串匹配是特定于域的,但我仍然需要最好的通用解决方案. 对搜索结果进行分组的最有效方法是什么? 我
我正在研究sql server 2008 DB和asp.net mvc web电子商务应用程序.

我有不同的用户将他们的产品提供给数据库,我想比较具有相似名称的产品的价格.
我知道字符串匹配是特定于域的,但我仍然需要最好的通用解决方案.

对搜索结果进行分组的最有效方法是什么?
我应该使用Levenshtien Distance算法递归地比较每个记录吗?
我应该在数据库中还是在代码中执行此操作?
有没有办法为此任务实时实施SSIS模糊分组?
有没有一种有效的方法来使用Sql server 2008自由文本搜索?

编辑1:
那么网络图分析呢.如果我使用Levenshtien Distance算法定义矩阵,我可以使用聚类算法(例如:clauset newman moore)和单独的组,它们之间没有语音路径.
我附上了尼克约翰逊(见评论)猫狗(例如红线是簇) – 并且通过使用clauset newman moore,我正在创建2个不同的簇并从狗中分离猫.

你怎么看?

解决方法

如果你能得到一个合适的词库/本体,基本上可以提供最好的聚类 – 因为词是概念树中的叶子,树中的距离是语义意义上的词之间的距离.因此,猫和狗几乎不像虎斑猫和猫科动物(猫),但它们比猫和香蕉更接近,猫和香蕉本身比猫(n.)和跳跃(v.)更接近.

允许小的拼写错误(通过查找词库中用于非词语的类似拼写的单词)可以提高稳健性,但是也可能由于同音异义词而产生意外结果.

至于在数据库或代码中执行它,请在代码中执行.在可以缓存的范围内,这将更快.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读