unix – 设计监控系统的可靠流程是什么?
简短版本:我有一个大约400个主机的异构环境,使用Groundwork / Nagios进行监控.当前检查,主机组和服务组已经以有机的临时方式组合在一起.我的任务是基本上重建监控设置.
我之前的演出涉及不到20台机器,没有严格的下班后正常运行时间要求,受到Munin的监控 – 这超出了我的经验.在基地,我正在寻找一个可以解决这个任务的过程. 我有一个模糊的概念,即为最终用户服务设计高级端到端检查 – 例如刮刀试图登录我们的某个网站 – 然后将一些更具体的标准检查设置为依赖检查 – 检查httpd正在运行,主机可通过网络在堆栈中运行 – 并且只有在高级别检查失败时才运行较低级别检查,以便在最小化系统压力的同时提供对根本原因的可见性.我一般也在考虑按环境划分主机,以便团队只在下班后从生产箱中获取页面,这样的事情. 这样理智吗?是否有设计监控系统的最佳实践方法?我对从当前不太理想的设置迁移到更好设计的能力充满信心,但我想要一些关于如何设计理想设置的更多经验丰富的指导.
为了扩展我的评论并希望给你一点指导,你可能想要从
Kyle’s blog post(
and this one too,我的设计监控系统的人必读参考文献清单)中拿走的是,当一个人失败时通常不会事情出错 – 这是10件事出错的时候.
一个体面的监控系统的工作是在实际关闭服务并影响面向客户的东西之前捕获这10个东西. 下面的内容并非详尽无遗或完整,但与我处理监控设置的方法非常类似.应该让你朝着正确的方向前进: >要弄清楚你想监视什么,首先需要考虑可能导致失败的原因. >其中一些是常见的 >查看依赖项并构建依赖树. 这只留下选择监控软件来实现您的愿景的任务.此选择应基于哪个包允许您监控理想列表的所有(或大部分),并且实际上将考虑到包之间的价格差异. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |