邮件重复数据删除
是否真的可以通过使用一些标题来重复删除电子邮件,因为根据RFC,它们的message-id应该是唯一的?
有没有办法计算下面这个重复数据删除方法错过1个单一电子邮件的机会(这3个标题的sha512哈希)? // $email是一个包含3个密钥(mime标头)的解析数组 – > message_id,主题和日期. 没有任何一封电子邮件会被遗漏,这是一项至关重要的任务,我们可能需要对几个(> 2亿)mime文件进行重复数据删除. 解决方法
SHA512哈希产生具有512位数据的哈希值.假设比特的随机分布,这可能超过1.34e 154个可能的值.即使有超过2e 9个样本,意外碰撞的几率几乎为零.
但是,您对哈希的输入并不是那么随机. message_id是globally unique identifier,“仅”具有5.3e 36个可能的值,并且随机性取决于实现.根据维基链接,在4.2e 18个样本中碰撞的几率约为50%.电子邮件地址和日期可能会明显高于此. 也就是说,如果没有实际进行概率数学计算,我会说几率可以忽略不计. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |