linux – Nagios – 不确定应该更改哪个间隔以限制发生错误时发
我有一台Nagios服务器,可以监控许多服务器.
我们有时会遇到一个当时无法解决的错误,我们暂时离开它. 当它发生时,我们会不断收到有关失败服务的电子邮件通知. 因此,如果我们在第二天没有处理问题 – 我们会收到大约500封有关它的电子邮件通知. 现在我的问题是,notification_interval和interval_length之间有什么区别,我应该编辑哪个值? 我愿意以一种方式配置它,当发生错误时,我将只收到1个关于该问题的通知,而不是每小时收到10个通知. 我希望Nagios在发生错误时只发送一次电子邮件,每12小时发送一次电子邮件,直到错误得到解决. 如何实现? 解决方法
您应该单独保留这些设置并使用Nagios中的确认功能.
这允许你告诉Nagios你知道这个问题,然后它会抑制通知发出直到状态改变(即它变得更糟,或者开始振荡,或者错误消失,在这种情况下警报也将停止). 有关此功能的更好解释,请参见Acknowledge_Host_Problem.对不起,我找不到比这更新的页面,但它足够好地解释了这个概念. 要直接回答你的问题,即使我认为还有更好的方法: > interval_length是秒数 – 默认为60 因此,为了在通知之间获得12小时,您可以将notification_interval设置为720,并将interval_length设置为单独使用. 但我仍然认为确认设置更好,因为它允许Nagios继续唠叨你的团队,直到他们采取某种行动. 请注意,无论哪种方式,Nagios仍可能会更频繁地发送通知,具体取决于发生的情况.我有关于CPU使用的警报,它在刚好高于临界阈值之间振荡 – 无论我做了什么,每次超过临界阈值时,都会发出警报. flapping detection in Nagios用于处理这些情况.或者您可能想要查看警报阈值. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |