加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

c# – 查找2个巨大区域(文本)文件之间的更改

发布时间:2020-12-15 18:35:37 所属栏目:百科 来源:网络整理
导读:我可以访问.com区域文件.区域文件是一个文本文件,其中包含域名列表及其名称服务器.它遵循以下格式: mydomain NS ns.mynameserver.com.mydomain NS ns2.mynameserver.com.anotherdomain NS nameservers.com.notinalphadomain NS ns.example.com.notinalphado
我可以访问.com区域文件.区域文件是一个文本文件,其中包含域名列表及其名称服务器.它遵循以下格式:
mydomain NS ns.mynameserver.com.
mydomain NS ns2.mynameserver.com.
anotherdomain NS nameservers.com.
notinalphadomain NS ns.example.com.
notinalphadomain NS ns1.example.com.
notinalphadomain NS ns2.example.com.

如您所见,每个域可以有多行(当有多个名称服务器时),并且文件不是按字母顺序排列的.
这些文件大小约为7GB.

我正在尝试获取上一个文件和新文件,并将它们进行比较以查找:

>添加了哪些域名
>删除了哪些域名
>哪些域名更改了域名服务器

由于7GB太大而无法将整个文件加载到内存中,显然我需要在流中读取.我目前认为最好的方法是对两个文件进行多次传递.字母表中每个字母的一次传递,加载第一次传递中以’a’开头的所有域.
一旦我从旧文件和新文件中获得了所有“a”域,我就可以在内存中进行非常简单的比较来查找更改.

问题是,即使通过char读取char,并按照我能够想到的优化,每次传递文件大约需要200-300秒,收集当前传递字母的所有域.因此,我认为在当前状态下,我正在查看大约一个小时来处理文件,甚至没有将更改存储在数据库中(这将花费更多时间).这是在双四核xeon服务器上,因此对它投入更多的马力对我来说不是一个选择.
这个时间可能不是一个交易破坏者,但我希望有人对如何加快速度提出一些明智的想法……不可否认,我还没有尝试过async IO,这是我的下一步.

提前感谢任何想法!

解决方法

就最佳代码类型而言,准备数据可能会有所帮助:不成文的类型,以及执行速度.
cat yesterday-com-zone | tr A-Z a-z | sort > prepared-yesterday
cat today-com-zone | tr A-Z a-z | sort > prepared-today

现在,你的程序做了一个非常简单的差异算法,你甚至可以使用diff:

diff prepared-today prepared-yesterday

编辑:

还有一种替代解决方案,可以消除一些额外的处理,可能会牺牲差异执行时间.这也假定使用GnuWin32 CoreUtils:

sort -f <today-com-zone >prepared-today
sort -f <yesterday-com-zone >prepared-yesterday
diff -i prepared-today prepared-yesterday

该输出将是添加,删除和更改的列表.每个区域不一定有1个更改记录(考虑当按顺序按字母顺序删除两个域时会发生什么).您可能需要使用diff选项来强制它不检查上下文的多行,以避免大量的误报变化.

您可能需要编写程序来获取两个已排序的输入文件,然后以锁定步骤,??每个区域运行它们.在TODAY文件中找到新区域时,这是一个新区域.当在YESTERDAY文件中找到“新”区域(但今天丢失)时,这是一个删除.当在两个文件中找到“相同”区域时,则比较NS记录.这不是改变,也不是名称服务器的改变.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读