asp.net – SQL – 两个不同长度的字符串之间的相似性
我有一个SQL Server产品表,每个产品都有我们网站上公开的描述.我想防止,或者至少警告我们的用户何时,描述与其他产品的描述太相似.每个产品的描述长度都会有很大差异.
我想查询包含相互之间的重复/相似段落/文本块的描述的产品.即字符串A有一堆独特的内容,但与字符串B共享一个相似/相同的段落.但是,我不确定哪种相似度算法最好用: > Levenshtein distance和Jaro-Winler distance算法似乎只适用于短字符串. Fuzzy hashing听起来像我正在寻找的,但我不仅仅是寻找具有微妙差异的重复内容.我也在寻找具有在独特文本块中注入的细微差异的重复内容.我不知道如何在SQL中实现模糊哈希. SOUNDEX()和DIFFERENCE()似乎使用模糊散列,但对我的用例来说非常不精确. 理想情况下,相似性SQL函数会很快,但我可以将缓存的相似性值存储在另一个表中,并安排作业偶尔更新. 实现此目的的最佳算法/ SQL(或CLR集成)实现是什么? 解决方法
我不是最近不得不通过模糊字符串匹配来加入组名.
我已经尝试过大约40种不同的算法,但是没有一种能够做到这一点,即使编写的组名只是因为一些拼写错误,缺少空格以及偶尔添加_mLF而有所不同. 因此,如果您尝试类似的事情,我强烈建议您立即停止,并将数据(在我的情况下为Excel文件)发送回用户进行更正,以便进行更正. 如果您真的只是对比较字符串感兴趣,这个链接可能正是您所需要的: 我发现Jaro-Winkler函数在我的情况下产生了最好的结果,但你可以为自己测试一下. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- .net – oData v4简单来说什么是函数和动作?
- asp.net-mvc-3 – 使用ViewData将字符串从Controller传递到
- 如何在.NET中使用TreeView控件创建三态复选框?
- asp.net-mvc – 在MVC中结合JS / CSS的任何经验?
- ASP.NET Web应用程序死锁 – 认为它是由SQL Server锁定引起
- 将asp.net应用程序移植到天蓝色有多大挑战?
- 实验四:搭建动态论坛(ASP+ACCESS)
- ASP.NET WebApi OAuth2身份认证,搭建客户端(二)
- asp.net-mvc – ASP.NET MVC是否需要安装在我的生产Web服务
- asp.net – 如何有效地使用Server.Transfer
- asp.net – 通过Web服务访问连接字符串
- asp.net-mvc-3 – 如何创建通用的MVC3编辑器模板
- 制作ASP.Net Web表单的“模式”是什么?
- asp.net-mvc-2 – 如何防止IIS7处理HTTP状态码40
- asp.net-mvc-3 – 访问帮助程序中的全局页面变量
- .net – WebApi OData实体集/密钥/导航/密钥支持
- asp.net-mvc-3 – ASP.NET Web API – NTLM身份验
- asp-classic – 在经典ASP中本地化记录集中的日期
- asp.net-mvc – 如何在ASP.NET MVC中定义表单域前
- asp.net – Windows 10主页:Windows身份验证