加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

正则表达式 – 跨多个目录按内容查找重复文件

发布时间:2020-12-14 05:38:46 所属栏目:百科 来源:网络整理
导读:我从互联网上下载了一些与特定主题相关的文件.现在我想检查文件是否有任何重复.问题是文件的名称会有所不同,但内容可能会匹配. 有没有办法实现一些代码,它将遍历多个文件夹并通知哪些文件是重复的? 解决方法 如果你正在使用 linux / * nix系统,你可以使用sh
我从互联网上下载了一些与特定主题相关的文件.现在我想检查文件是否有任何重复.问题是文件的名称会有所不同,但内容可能会匹配.

有没有办法实现一些代码,它将遍历多个文件夹并通知哪些文件是重复的?

解决方法

如果你正在使用 linux / * nix系统,你可以使用sha512sum之类的sha工具,因为md5可以被破坏.

find /path -type f -print0 | xargs -0 sha512sum | awk '($1 in seen){print "duplicate: "$2" and "seen[$1] }(!($1 in  seen)){seen[$1]=$2}'

如果你想使用Python,一个简单的实现

import hashlib,os
def sha(filename):    
    ''' function to get sha of file '''
    d = hashlib.sha512()
    try:
        d.update(open(filename).read())
    except Exception,e:
        print e
    else:
        return d.hexdigest()
s={}
path=os.path.join("/home","path1")
for r,d,f in os.walk(path):
    for files in f:
        filename=os.path.join(r,files)
        digest=sha(filename)
        if not s.has_key(digest):
            s[digest]=filename
        else:
            print "Duplicates: %s <==> %s " %( filename,s[digest])

如果您认为sha512sum不够,可以使用像diff或filecmp(Python)这样的unix工具

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读