S920X02服务器OS频繁重启案例分享
发表于 2026/06/11
0
问题现象描述
硬件配置:S920X02,HP382网卡
问题现象:
服务器OS频繁重启:"Normal", "System", "The-host-was-restarted-due-to-unrecognized-reason.", "2025-10-28 02:08:20", "Asserted", "0x2C00000F",
原因分析
关键过程:
- sel日志显示未知原因重启。

- OS最后一屏显示内核挂死在mlx5_core触发重启。

- systemcom日志显示 mlx5_core驱动上报42:00.1网卡队列异常。
如下打印解释:网卡有大量CQE错误,这个表示第0xc8a(cqn)的CQ,对应的SQ是0x9df(SQN)出现error,然后因为一直报错,反复上报,ci(consumer index)会一直增加,具体的报错是0x2(Local_QP_Operation_Error),最终出现too many error CQES,一般是硬件出现问题,导致bit跳变。

4、server_config日志显示42:00.1对应槽位slot8的Bus Number。

根本原因分析:
根因定位:网卡内部硬件队列故障。
解决措施
结论:
HP382网卡内部队列异常。
解决方案:
更换网卡


