【Jaccard】文字查重率
发布时间:2020-12-14 04:44:32 所属栏目:百科 来源:网络整理
导读:Jaccard 通过对比后更适合用于文字的查重率 # import numpy as np # from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用 import jieba def Jaccrad(model,reference): terms_reference为源句子,terms_mod
Jaccard 通过对比后更适合用于文字的查重率 # import numpy as np # from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用 import jieba def Jaccrad(model,reference): terms_reference为源句子,terms_model为候选句子 terms_reference = jieba.cut(reference) 默认精准模式 terms_model = jieba.cut(model) grams_reference = set(terms_reference) 去重;如果不需要就改为list grams_model = set(terms_model) temp = 0 for i in grams_reference: 遍历传进来的list print("传进来对比的值",i) if i in grams_model: temp = temp + 1 fenmu = len(grams_model) + len(grams_reference) - temp 并集 计算并集数量 jaccard_coefficient = float(temp / fenmu) 交集 return jaccard_coefficient if __name__ == '__main__': a = 香农在信息论中提出的信息熵定义为自信息的期望 b = jaccard_coefficient = Jaccrad(a,b) print(jaccard_coefficient) ? (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐
- c – boost asio iostream – 如何获取本地IP地址
- 读写系统配置文件的Key值
- ruby-on-rails – 仅当属性更改时才更新用户属性
- Swift:“failable initializer’init()’不能覆
- AWS lambda的aws-lambda-node_module错误,依赖关
- 获取c#服务中的连接字符串
- 百度天气api开发 全解析xml和json格式 使用json-
- objective-c – 如何让podspec尊重“head:”参数
- 在独立的ruby应用程序中使用哪个ruby ORM框架?
- postgresql 9.2.1 在 windows 7 下VS2010编译安装
热点阅读