加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

比较两个文本的相似性

发布时间:2020-12-14 04:05:49 所属栏目:大数据 来源:网络整理
导读:使用余弦定理来实现对两个文本相似性的比较: python代码位置:http://www.oschina.net/code/snippet_1180874_22866 此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分

使用余弦定理来实现对两个文本相似性的比较:

余弦公式

python代码位置:http://www.oschina.net/code/snippet_1180874_22866

此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分词来比较中文的相似性,那就更好了。下面代码就用到了分词库实现文本的比较,效果提升明显。

使用分词以及余弦定理来比较两份文档的相似性的代码:

http://www.oschina.net/code/snippet_1180874_22869


原理解释参考此文章:http://my.oschina.net/BreathL/blog/42477

其它:https://pypi.python.org/pypi/NearDuplicatesDetection/0.2.0

这个python库号称可以比较两文本的相似度,但本人使用中文文件测试结果很不理想。不信大家可以试试。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读