开发者
S920X02服务器OS频繁重启案例分享

S920X02服务器OS频繁重启案例分享

案例分享

发表于 2026/06/11

0


问题现象描述

硬件配置:S920X02HP382网卡

问题现象:

服务器OS频繁重启:"Normal", "System", "The-host-was-restarted-due-to-unrecognized-reason.", "2025-10-28 02:08:20", "Asserted", "0x2C00000F",

原因分析

关键过程:

  1. sel日志显示未知原因重启。

  1. OS最后一屏显示内核挂死在mlx5_core触发重启。

  1. systemcom日志显示 mlx5_core驱动上报42:00.1网卡队列异常。

如下打印解释:网卡有大量CQE错误,这个表示第0xc8a(cqn)的CQ,对应的SQ是0x9df(SQN)出现error,然后因为一直报错,反复上报,ci(consumer index)会一直增加,具体的报错是0x2(Local_QP_Operation_Error),最终出现too many error CQES,一般是硬件出现问题,导致bit跳变。

4、server_config日志显示42:00.1对应槽位slot8的Bus Number。

根本原因分析:

根因定位:网卡内部硬件队列故障。


解决措施

结论:

HP382网卡内部队列异常。

解决方案:

更换网卡