开发者
资源
S920X00 BMC上报expander PHY18 bit增长过快事件问题案例分析

S920X00 BMC上报expander PHY18 bit增长过快事件问题案例分析

案例分享鲲鹏硬件

发表于 2026/06/26

0

1 问题现象描述

硬件配置

  • 主板型号:S920X00
  • RAID卡:9460-8i
  • 硬盘配置:disk0(Micron_5300_MTFDDAK480TDS)RAID0,disk1~2(S5FZNC0T808848)JBOD,disk3~10(ST6000NM0115-1YZ110)JBOD

问题现象

近期BMC上报2次expander PHY18 bit error增长过快记录,级别为Normal事件。



2 关键过程与根因分析

关键过程

Step 1:SEL日志分析

2026.1.7、2026.1.8上报2次expander1 PHY18 bit error增长过快记录。

Step 2:链路误码分析

RAID卡链路误码记录表查询,发现PHY18在对应时间点均有误码计数大量变化记录,因此BMC上报对应PHY18链路bit error增长过快。

Step 3:原因说明

关于链路误码增长的原因,在上下电、硬盘插拔、硬盘reset场景过程中都可能产生,因此BMC目前针对PHY链路的误码监控只做Normal事件提示,用于问题辅助定位。

Step 4:硬件定位

硬件设计规格,12*3.5 EXP硬盘背板PHY18对应的是硬盘背板收端,因此怀疑硬盘背板侧存在异常,建议更换。

根因分析

硬盘背板收端链路存在异常,RAID检测到bit error增长上报BMC,BMC针对链路误码作Normal事件提示。



3 结论、解决方案及效果

结论

硬盘背板收端(PHY18对应)链路存在异常,导致bit error增长过快,BMC上报Normal事件告警。

解决方案

更换硬盘背板。

效果

更换背板后链路误码消失,BMC不再上报该告警。



4 经验总结与预防措施

经验总结

  1. 链路误码在上下电、硬盘插拔等场景可能产生
  2. BMC对链路误码只做提示性告警(Normal级别)
  3. PHY18对应硬盘背板收端,可用于问题定位

预防措施

定期检查硬盘背板链路健康状态



本页内容