比较两个文本的相似性
发布时间:2020-12-14 04:05:49 所属栏目:大数据 来源:网络整理
导读:使用余弦定理来实现对两个文本相似性的比较: python代码位置:http://www.oschina.net/code/snippet_1180874_22866 此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分
使用余弦定理来实现对两个文本相似性的比较:
python代码位置:http://www.oschina.net/code/snippet_1180874_22866 此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分词来比较中文的相似性,那就更好了。下面代码就用到了分词库实现文本的比较,效果提升明显。 使用分词以及余弦定理来比较两份文档的相似性的代码: http://www.oschina.net/code/snippet_1180874_22869 原理解释参考此文章:http://my.oschina.net/BreathL/blog/42477 其它:https://pypi.python.org/pypi/NearDuplicatesDetection/0.2.0 这个python库号称可以比较两文本的相似度,但本人使用中文文件测试结果很不理想。不信大家可以试试。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |