加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

php – 需要一种算法来查找接近重复的文本值

发布时间:2020-12-13 17:08:57 所属栏目:PHP教程 来源:网络整理
导读:我运行一个照片网站,用户可以随意输入他们喜欢的任何标签,甚至是以前没有使用过的标签.结果,标签的照片有时可以被标记为“昆虫”,而其他人将其标记为“昆虫”. 我想保留自由标记功能,但希望有办法过滤掉这些近似重复的内容.标签的总集合目前为1,500.我的想法
我运行一个照片网站,用户可以随意输入他们喜欢的任何标签,甚至是以前没有使用过的标签.结果,标签的照片有时可以被标记为“昆虫”,而其他人将其标记为“昆虫”.

我想保留自由标记功能,但希望有办法过滤掉这些近似重复的内容.标签的总集合目前为1,500.我的想法是将所有这些从DB读入mem,然后在其上运行一个显示“嫌疑人”的alghoritm.

我对嫌疑人的看法是字符串中x%的字符是相同的(相同的字符和顺序),其中x是可配置的.我可能编写一个非常低效的方法来执行此操作,但我想知道是否存在此问题的现有解决方案?

编辑:忘记提及:只是对标签进行排序是不够的,因为这需要我通过整个集来查找欺骗.

解决方法

你的逻辑有一些缺陷.例如,当一个对象的复数与单数(即人与人或甚至糖果与糖果)不同时会发生什么.

如果英语是主要语言,请查看允许语音匹配的Soundex.还要考虑使用众包同义词模型,用户可以在其中创建指向现有标签的链接.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读