php – 需要一种算法来查找接近重复的文本值

发布时间：2020-12-13 17:08:57 所属栏目：PHP教程来源：网络整理

导读：我运行一个照片网站,用户可以随意输入他们喜欢的任何标签,甚至是以前没有使用过的标签.结果,标签的照片有时可以被标记为“昆虫”,而其他人将其标记为“昆虫”. 我想保留自由标记功能,但希望有办法过滤掉这些近似重复的内容.标签的总集合目前为1,500.我的想法

我运行一个照片网站,用户可以随意输入他们喜欢的任何标签,甚至是以前没有使用过的标签.结果,标签的照片有时可以被标记为“昆虫”,而其他人将其标记为“昆虫”.

我想保留自由标记功能,但希望有办法过滤掉这些近似重复的内容.标签的总集合目前为1,500.我的想法是将所有这些从DB读入mem,然后在其上运行一个显示“嫌疑人”的alghoritm.

我对嫌疑人的看法是字符串中x％的字符是相同的(相同的字符和顺序),其中x是可配置的.我可能编写一个非常低效的方法来执行此操作,但我想知道是否存在此问题的现有解决方案？

编辑：忘记提及：只是对标签进行排序是不够的,因为这需要我通过整个集来查找欺骗.

你的逻辑有一些缺陷.例如,当一个对象的复数与单数(即人与人或甚至糖果与糖果)不同时会发生什么.

如果英语是主要语言,请查看允许语音匹配的Soundex.还要考虑使用众包同义词模型,用户可以在其中创建指向现有标签的链接.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!