开发者
资源
S920X10 服务器反复重启问题案例分析

S920X10 服务器反复重启问题案例分析

案例分享鲲鹏硬件

发表于 2026/06/30

0

1 问题现象描述

硬件配置

  • 型号:S920X10
  • 配置:HP382(slot3、8)+riser1(1*X8)+4x2.5 SAS/SATA+12x2.5 NVMe前置背板
  • 硬盘配置:Disk8、9、10、20、21、22配置NVME盘

问题现象

服务器反复重启。


2 关键过程与根因分析

关键过程

Step 1:SEL日志分析

SEL日志上报slot3的HP382和Disk22存在UCE。

Step 2:FDM日志分析

Fdm_output内显示近期HP382网卡多次上报Fatal error-Surprise Down Error。

Step 3:硬盘告警确认

Disk22也在1-29日曾经上报Fatal error。

Step 4:现场处理

现场根据告警更换HP382和Disk22,但告警并未恢复,直至更换riser1后恢复。

根因分析

  1. Disk22的NVME盘UCE个例失效
  2. slot3的HP382网卡和riser1故障

3 结论、解决方案及效果

结论

服务器反复重启由多个硬件故障导致:

  1. Disk22 NVME盘UCE失效
  2. slot3 HP382网卡UCE失效
  3. riser1链路故障

解决方案

更换Disk22、slot3(HP382)、riser1。

效果

更换故障部件后服务器恢复正常运行。


4 经验总结与预防措施

经验总结

  1. PCIe部件告警UCE类型为Surprise Down Error
  2. 除PCIe卡本身外,链路的riser和线缆也可能导致Surprise Down Error
  3. 现场处理时应同时准备链路的保障性备件

预防措施

  1. 定期检查PCIe设备健康状态
  2. 准备riser卡和线缆作为保障性备件

本页内容