加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

邮件重复数据删除

发布时间:2020-12-14 04:46:30 所属栏目:大数据 来源:网络整理
导读:是否真的可以通过使用一些标题来重复删除电子邮件,因为根据RFC,它们的message-id应该是唯一的? 有没有办法计算下面这个重复数据删除方法错过1个单一电子邮件的机会(这3个标题的sha512哈希)? // $email是一个包含3个密钥(mime标头)的解析数组 – message_id
是否真的可以通过使用一些标题来重复删除电子邮件,因为根据RFC,它们的message-id应该是唯一的?

有没有办法计算下面这个重复数据删除方法错过1个单一电子邮件的机会(这3个标题的sha512哈希)?

// $email是一个包含3个密钥(mime标头)的解析数组 – > message_id,主题和日期.
$hashStr = $email [‘message_id’];
$hashStr.= $email [‘subject’];
$hashStr.= $email [‘date’];
$uniqueEmailId = hash(‘sha512’,$hashStr);

没有任何一封电子邮件会被遗漏,这是一项至关重要的任务,我们可能需要对几个(> 2亿)mime文件进行重复数据删除.

解决方法

SHA512哈希产生具有512位数据的哈希值.假设比特的随机分布,这可能超过1.34e 154个可能的值.即使有超过2e 9个样本,意外碰撞的几率几乎为零.

但是,您对哈希的输入并不是那么随机. message_id是globally unique identifier,“仅”具有5.3e 36个可能的值,并且随机性取决于实现.根据维基链接,在4.2e 18个样本中碰撞的几率约为50%.电子邮件地址和日期可能会明显高于此.

也就是说,如果没有实际进行概率数学计算,我会说几率可以忽略不计.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读