加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

字符串之间的相似性 – SQL Server 2005

发布时间:2020-12-14 04:31:51 所属栏目:大数据 来源:网络整理
导读:我正在寻找一种简单的方法(UDF?)来建立字符串之间的相似性. SOUNDEX和DIFFERENCE功能似乎不起作用. 相似性应基于共同的字符数(订单事项). 例如: Spiruroidea sp. AM-2008 和 Spiruroidea gen. sp. AM-2008 应该被认为是相似的. 任何指针都将非常感激. 谢谢
我正在寻找一种简单的方法(UDF?)来建立字符串之间的相似性. SOUNDEX和DIFFERENCE功能似乎不起作用.

相似性应基于共同的字符数(订单事项).

例如:

Spiruroidea sp. AM-2008

Spiruroidea gen. sp. AM-2008

应该被认为是相似的.

任何指针都将非常感激.

谢谢.

基督教

解决方法

您可能需要考虑将 Levenshtein Distance算法实现为UDF,以便它返回需要在字符串A上执行的操作数,以使其成为字符串B.这通常称为 edit distance.

然后,您可以将Levenshtein距离函数的结果与固定阈值或字符串A或字符串B的百分比长度进行比较.

您只需按如下方式使用它:

WHERE LEVENSHTEIN(Field_A,Field_B) < 4;

您可能想要查看SQL Server的以下Levenshtein Distance实现:

> Levenshtein Distance Algorithm: TSQL Implementation

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读