S920X00 BMC上报expander PHY18 bit增长过快事件问题案例分析
发表于 2026/06/26
0
1 问题现象描述
硬件配置
- 主板型号:S920X00
- RAID卡:9460-8i
- 硬盘配置:disk0(Micron_5300_MTFDDAK480TDS)RAID0,disk1~2(S5FZNC0T808848)JBOD,disk3~10(ST6000NM0115-1YZ110)JBOD
问题现象
近期BMC上报2次expander PHY18 bit error增长过快记录,级别为Normal事件。

2 关键过程与根因分析
关键过程
Step 1:SEL日志分析
2026.1.7、2026.1.8上报2次expander1 PHY18 bit error增长过快记录。

Step 2:链路误码分析
RAID卡链路误码记录表查询,发现PHY18在对应时间点均有误码计数大量变化记录,因此BMC上报对应PHY18链路bit error增长过快。

Step 3:原因说明
关于链路误码增长的原因,在上下电、硬盘插拔、硬盘reset场景过程中都可能产生,因此BMC目前针对PHY链路的误码监控只做Normal事件提示,用于问题辅助定位。
Step 4:硬件定位
硬件设计规格,12*3.5 EXP硬盘背板PHY18对应的是硬盘背板收端,因此怀疑硬盘背板侧存在异常,建议更换。

根因分析
硬盘背板收端链路存在异常,RAID检测到bit error增长上报BMC,BMC针对链路误码作Normal事件提示。
3 结论、解决方案及效果
结论
硬盘背板收端(PHY18对应)链路存在异常,导致bit error增长过快,BMC上报Normal事件告警。
解决方案
更换硬盘背板。
效果
更换背板后链路误码消失,BMC不再上报该告警。
4 经验总结与预防措施
经验总结
- 链路误码在上下电、硬盘插拔等场景可能产生
- BMC对链路误码只做提示性告警(Normal级别)
- PHY18对应硬盘背板收端,可用于问题定位
预防措施
定期检查硬盘背板链路健康状态


