确定在Linux上停止进程的原因
我正在尝试确定在
Linux上停滞过程的原因.这是一个电信应用程序,在相当重的负载下运行. 8个T1跨度中的每一个都有一个单独的过程.每隔一段时间,其中一个进程就会变得非常无响应 – 在通常非常忙碌的进程日志中记录事件之前可能需要50秒.
可能有些系统资源不足.显而易见的事情 – CPU使用率 – 看起来没问题. 哪些linux实用程序可能最适合捕获和分析此类事物,并尽可能不引人注意,因为这是一个高负载系统?它似乎需要是流程而不是系统导向.也许正在持续监控/ proc / pid / XX? Top在这里似乎没什么用处. 解决方法
如果你能够发现这个“无反应的时刻”,那么你可以使用strace在这段时间内附加到相关进程并尝试找出它“睡觉”的位置:
strace -f -o LOG -p <pid> 更轻巧但不太可靠的方法: >当进程挂起时,使用top / ps / gdp / strace / ltrace来查找进程的状态(例如,它是否在“select”中等待或在某些库调用中消耗100%cpu) strace -e file -f -o LOG .... 如果strace对你来说太重了,请尝试监控: >使用“vmstat 1> / some / log”的内存使用情况 – 在此期间可能正在交换(或退出)进程>使用vmstat / iotop进行IO使用 – 也许其他一些进程正在颠覆磁盘> / proc / interrupts – 也许您的T1卡的驱动程序遇到了问题? (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |