加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

文件相似性判断 -- SimHash

发布时间:2020-12-14 03:30:31 所属栏目:大数据 来源:网络整理
导读:最近调研了一下simhash算法,它主要用在谷歌网页去重中,网上有很多原理性的介绍。既然可以用来判断文件的相似性,就想知道效果怎么样,simhash的精确度是否依赖于分词算法?是否和simhash的长度有关? 在数据去重过程中,都是先对文件进行分块,而后得到关

最近调研了一下simhash算法,它主要用在谷歌网页去重中,网上有很多原理性的介绍。既然可以用来判断文件的相似性,就想知道效果怎么样,simhash的精确度是否依赖于分词算法?是否和simhash的长度有关?

在数据去重过程中,都是先对文件进行分块,而后得到关于这个文件的所有指纹(SHA-1?digest),那么如果把这些fingerprints视为这个文件的单词,作为simhash的输入,效果会如何呢?接下来自己做了一个简单的测试,测试文件由自己构建的,下表是统计数据,F是基准文件,貌似效果没有那么明显。(其中243/27/27?表示两个文件有243个相同的指纹块(交集),?27是各自拥有的不同的块)

?

?

接下来会借用一些分词算法对文件分词后再获得对应的simhash值,与上述情况作对比。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读