当未受影响的unix服务器开始疯狂时,你检查的第一件事是什么?
所以你有这个整齐的设置unix服务器,它超级快速,工作膨胀,一切都很好几个月,突然出现各种奇怪的错误开始出现各种不同的服务,他们没有一个很自觉,更不用说在一起了.
一旦你的ssh会话进入机器,你应该检查哪些便宜的东西? 我特别感兴趣的是创伤故事,突出非显而易见的命令和罕见的情况,但我想明显的是因人而异,所以我们可以自由地列出它们.
第一顺序:它是否有响应?
如果您无法登录,则会出现更大的问题.这通常有两种形式:硬件故障和软件故障.两者都可能是灾难性的.要防止DFA错误,请首先检查一般硬件健康状况 – 通常只需简单的一瞥即可. 二阶:系统的基础结构是否健康有序? 检查系统的“黄金三联”: >足够的CPU时间可供处理 在过去的几十年里,三合会已经扩展到一个“四边形”,其中包括通信(网络): >连接功能,响应能力和容量 第三顺序:问题的严重性是什么? 哪些计划或服务受到影响?按严重程度递减顺序,是系统性(系统范围),聚类(一组程序)还是孤立(特定程序)?程序集群通常会绊倒,因为特定的底层服务已经失败或没有响应.系统性问题有时与此相关(想想DNS或IP冲突),但知道在哪里寻找通常是关键. 第四顺序:诊断工具是否提供与该问题相关的有用数据? 错误消息或日志文件应该是此旅程中的常见航点. CPU问题: > loadav 磁盘空间/ I-O问题: > df 内存问题: >免费 连接问题: > ping 最常见的抱怨(我听到): 电子邮件的传送速度不够快(从发送到收件人的收据超过一分钟),或者电子邮件拒绝我的发送尝试.这通常归结为Postfix在垃圾邮件风暴期间的速率限制,这会影响接受内部传递的能力. 一个真实的例子: 然而,这并非总是如此.有一次,无论服务重启如何,问题仍然存在;所以在3分钟后,是时候开始环顾四周了. CPU很忙,但是在100%以下,然而在一个只有2个核心的盒子上,负载已经飙升至15,并且威胁要更高. top命令显示邮件系统与邮件扫描程序一起处于超速状态,但没有看到amavis子进程.这就是线索 – 邮件队列命令(mailq)在过去20分钟内显示了大约150封未传送的邮件,其中80%以上是垃圾邮件.快速调整以降低速率限制器(降低垃圾邮件风暴的摄入率),同时增加子电子邮件扫描程序进程的数量(以帮助处理积压),然后重新启动服务,解决了问题,系统能够在短时间内完成交付. 问题的原因是amavis父进程已经过时了,并且子进程最终都已经完成了它们的运行(它们在经过如此多次扫描后自行终止以防止内存泄漏).因此,postfix中的SMTP进程试图联系……稀薄的空气……进行所需的垃圾邮件/病毒扫描.我使用的发行版有过时的软件包,永远不会更新;由于安装将在一年左右的时间内被更换,我手动将“安装”更新到最新版本,其中包括几个错误修复.从那以后我没有遇到过同样的问题. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |