相似性计算
发布时间:2020-12-14 02:01:17 所属栏目:大数据 来源:网络整理
导读:相似性计算,可以用在网页去重、推荐算法、聚类等应用中。 可以通过各种距离来衡量相似性:欧式距离、编辑距离、汉明距离、余弦距离、jaccard距离、马氏距离、皮尔逊相关系数等。 之前听说过"最小哈希-局部敏感哈希"等算法,但感觉都没有相似性哈希高效。 相
相似性计算,可以用在网页去重、推荐算法、聚类等应用中。 可以通过各种距离来衡量相似性:欧式距离、编辑距离、汉明距离、余弦距离、jaccard距离、马氏距离、皮尔逊相关系数等。 之前听说过"最小哈希-局部敏感哈希"等算法,但感觉都没有相似性哈希高效。 相似性哈希(Simhash),MosesCharikar在2002年提出的。 定义一个长度为64的数组s,初始化为0。针对文档中的每一个词,计算词的hash(64位),如果hash第i位为1,则将数组s[i]加权重w1,否则s[i]减w1。所有的词计算完毕后,将数组收缩:如果>0,置为1,否则置为0。得到64个0或1数字,组合成64位的数字,即为simhash。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |