加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

【Jaccard】文字查重率

发布时间:2020-12-14 04:44:32 所属栏目:百科 来源:网络整理
导读:Jaccard 通过对比后更适合用于文字的查重率 # import numpy as np # from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用 import jieba def Jaccrad(model,reference): terms_reference为源句子,terms_mod
Jaccard 通过对比后更适合用于文字的查重率
# import numpy as np
# from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用
import jieba


def Jaccrad(model,reference):   terms_reference为源句子,terms_model为候选句子
    terms_reference = jieba.cut(reference)   默认精准模式
    terms_model = jieba.cut(model)

    grams_reference = set(terms_reference)   去重;如果不需要就改为list
    grams_model = set(terms_model)


    temp = 0
    for i in grams_reference:   遍历传进来的list
        print("传进来对比的值",i)
        if i in grams_model:
            temp = temp + 1

    fenmu = len(grams_model) + len(grams_reference) - temp   并集 计算并集数量
    jaccard_coefficient = float(temp / fenmu)   交集
    return jaccard_coefficient


if __name__ == '__main__':

    a = 香农在信息论中提出的信息熵定义为自信息的期望
    b = 
    jaccard_coefficient = Jaccrad(a,b)
    print(jaccard_coefficient)

?

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读