S920X10 服务器反复重启问题案例分析
发表于 2026/06/30
0
1 问题现象描述
硬件配置
- 型号:S920X10
- 配置:HP382(slot3、8)+riser1(1*X8)+4x2.5 SAS/SATA+12x2.5 NVMe前置背板
- 硬盘配置:Disk8、9、10、20、21、22配置NVME盘
问题现象
服务器反复重启。

2 关键过程与根因分析
关键过程
Step 1:SEL日志分析
SEL日志上报slot3的HP382和Disk22存在UCE。
Step 2:FDM日志分析
Fdm_output内显示近期HP382网卡多次上报Fatal error-Surprise Down Error。

Step 3:硬盘告警确认
Disk22也在1-29日曾经上报Fatal error。

Step 4:现场处理
现场根据告警更换HP382和Disk22,但告警并未恢复,直至更换riser1后恢复。
根因分析
- Disk22的NVME盘UCE个例失效
- slot3的HP382网卡和riser1故障
3 结论、解决方案及效果
结论
服务器反复重启由多个硬件故障导致:
- Disk22 NVME盘UCE失效
- slot3 HP382网卡UCE失效
- riser1链路故障
解决方案
更换Disk22、slot3(HP382)、riser1。
效果
更换故障部件后服务器恢复正常运行。
4 经验总结与预防措施
经验总结
- PCIe部件告警UCE类型为Surprise Down Error
- 除PCIe卡本身外,链路的riser和线缆也可能导致Surprise Down Error
- 现场处理时应同时准备链路的保障性备件
预防措施
- 定期检查PCIe设备健康状态
- 准备riser卡和线缆作为保障性备件


