加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > Linux > 正文

linux – 自发重启,机器检查事件,AMD ryzen

发布时间:2020-12-14 03:00:41 所属栏目:Linux 来源:网络整理
导读:我已经在arch linux上运行了一个全新的系统大约3个星期,昨晚它自动重启. 在重新启动时,在journalctl中没有关闭/暂停,所以我很确定这是与硬件相关的,而不是用户空间程序或acpi. journalctlJul 01 06:21:15 euclid sshd[25731]: ...-- Reboot --Jul 01 06:24:4
我已经在arch linux上运行了一个全新的系统大约3个星期,昨晚它自动重启.

在重新启动时,在journalctl中没有关闭/暂停,所以我很确定这是与硬件相关的,而不是用户空间程序或acpi.

journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.

然后,在开机期间,

Jul 01 06:24:46 euclid kernel: .... node  #0,CPUs:        #1  #2  #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel:   #4  #5  #6  #7  #8  #9 #10 #11 #12 #13 #14 #15

当我尝试运行mcelog时,我明白了

0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor.  Please use the edac_mce_amd module instead.
CPU is unsupported

我怀疑要么1)我为这个系统缩小了PSU,或者2)在某个地方过热.

我运行的所有PSU计算器给了我750W的推荐值,所以我使用了850W的PSU.不过,现在我正在考虑升级到1000W的PSU.

我的问题是,如何解释机器检查事件?我想这是我的CPU特有的? AMD是否提供了任何可以解码该错误的信息?而且,我怎么知道我是否因为过热而重新启动?我无法在BIOS(华硕)中找到任何事件日志.

编辑:更多细节

处理器:Ryzen 7 1700

Mobo:华硕Prime x370-Pro

RAM:G.SKILL Trident Z(4x 8GB)3200(F4-3200C16D-16GTZKW)

PSU:EVGA SuperNOVA 850 P2 80 PLATINUM 850W

GPU:GTX 1080-TI x2

处理0x0000,DMI类型0,24字节
BIOS信息
供应商:American Megatrends Inc.
版本:0604
发布日期:04/06/2017

没有超频.库存BIOS设置.

它稳定运行了几个星期.事件发生前几天我确实增加了3倍硬盘.

编辑:同样的崩溃似乎再次发生

Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c

解决方法

这似乎是CPU硬件问题.在AMD社区论坛( https://community.amd.com/thread/215773)中,有人建议禁用SMT或OpCache作为解决方法,直到修复为止.

我在BIOS中禁用了OpCache,启动时mce:[硬件错误]消息消失了.我有两个相同的系统,与冻结/重新启动有相同的问题.到目前为止,两个系统都没有冻结.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读