S920X20设备硬盘背板BP1告警上电超时问题案例分享
发表于 2026/06/29
0
1 问题现象描述
硬件配置
- 型号:S920X20
- 配置:16NVMe背板,8pcs NVMe硬盘(HWE72P453T8L007N),1pcs SATA SSD,2张IO模组,搭配CX6网卡
问题现象
局点交付后出现4台S920X20设备告警BP1背板上电超时,设备整机无法正常上电。
告警信息:The BC83NHBV power BP_12V0 failure results host power-on timed out
2 关键过程与根因分析
关键过程
Step 1:故障现象确认
现场故障设备告警现象均一致,均为 The BC83NHBV power BP_12V0 failure results host power-on timed out,整机无法正常上电。

Step 2:寄存器分析
排查硬盘背板上电超时寄存器置位为0x08,对应硬盘背板12V缓起电源当时存在异常。

Step 3:问题定位
调查同配置订单,发现:
- 1月份已交付50台未出现问题
- 2月交付50台至8个地域,其中2个地域出现问题,其余地域无问题
进一步排查生产测试记录,无差异;排查故障背板的产线订单及加工记录无共性。
Step 4:根因定位
经调查发现,本次交付的出问题机房现场有加装空金属硬盘托架的情况。背景是客户后续可能有增加硬盘的需求,要求出货设备在slot9/slot13加装空硬盘托架,而1月份交付的50台因工期原因未加装,均使用的假面板。

Step 5:问题复现验证
实验室使用空金属硬盘托架安装在slot13槽位,注错托架下部可能短路的位置,会导致12V缓启输出短路,可复现告警。
根因分析
本次交付设备,现场进行了slot13槽位加空金属硬盘托架的操作,因为空架子无支撑,操作过程概率性触碰背板侧电容,导致背板12V缓起输出短路,最终产生上电超时。
3 结论、解决方案及效果
结论
本次交付设备,现场进行了slot13槽位加空金属硬盘托架的操作,因为空架子无支撑,操作过程概率性触碰背板侧电容,导致背板12V缓起输出短路,最终产生上电超时。
解决方案
- 现场出问题设备更换硬盘背板
- 拔除空金属硬盘托架,使用假面板替代
效果
更换背板并使用假面板后,设备恢复正常运行,未再出现上电超时告警。
4 经验总结与预防措施
经验总结
- 空金属硬盘托架在安装过程中存在碰触背板电容的风险,可能导致12V缓启电源短路
- 现场加装配件的操作需要严格规范,避免类似问题再次发生
- 问题具有一定的概率性,与安装操作手法密切相关
预防措施
- 建议出货设备默认使用假面板而非空硬盘托架
- 如客户确需加装空硬盘托架,应在工厂完成并确保安装规范
- 现场操作时需对安装人员进行培训,强调轻拿轻放,避免碰触周围器件
规范建议
- 针对现场加装配件场景,制定专门的安装操作规范
- 建议在托架与背板之间增加绝缘隔离措施


