c# – 查找2个巨大区域(文本)文件之间的更改
我可以访问.com区域文件.区域文件是一个文本文件,其中包含域名列表及其名称服务器.它遵循以下格式:
mydomain NS ns.mynameserver.com. mydomain NS ns2.mynameserver.com. anotherdomain NS nameservers.com. notinalphadomain NS ns.example.com. notinalphadomain NS ns1.example.com. notinalphadomain NS ns2.example.com. 如您所见,每个域可以有多行(当有多个名称服务器时),并且文件不是按字母顺序排列的. 我正在尝试获取上一个文件和新文件,并将它们进行比较以查找: >添加了哪些域名 由于7GB太大而无法将整个文件加载到内存中,显然我需要在流中读取.我目前认为最好的方法是对两个文件进行多次传递.字母表中每个字母的一次传递,加载第一次传递中以’a’开头的所有域. 问题是,即使通过char读取char,并按照我能够想到的优化,每次传递文件大约需要200-300秒,收集当前传递字母的所有域.因此,我认为在当前状态下,我正在查看大约一个小时来处理文件,甚至没有将更改存储在数据库中(这将花费更多时间).这是在双四核xeon服务器上,因此对它投入更多的马力对我来说不是一个选择. 提前感谢任何想法! 解决方法
就最佳代码类型而言,准备数据可能会有所帮助:不成文的类型,以及执行速度.
cat yesterday-com-zone | tr A-Z a-z | sort > prepared-yesterday cat today-com-zone | tr A-Z a-z | sort > prepared-today 现在,你的程序做了一个非常简单的差异算法,你甚至可以使用diff: diff prepared-today prepared-yesterday 编辑: 还有一种替代解决方案,可以消除一些额外的处理,可能会牺牲差异执行时间.这也假定使用GnuWin32 CoreUtils: sort -f <today-com-zone >prepared-today sort -f <yesterday-com-zone >prepared-yesterday diff -i prepared-today prepared-yesterday 该输出将是添加,删除和更改的列表.每个区域不一定有1个更改记录(考虑当按顺序按字母顺序删除两个域时会发生什么).您可能需要使用diff选项来强制它不检查上下文的多行,以避免大量的误报变化. 您可能需要编写程序来获取两个已排序的输入文件,然后以锁定步骤,??每个区域运行它们.在TODAY文件中找到新区域时,这是一个新区域.当在YESTERDAY文件中找到“新”区域(但今天丢失)时,这是一个删除.当在两个文件中找到“相同”区域时,则比较NS记录.这不是改变,也不是名称服务器的改变. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |