开发者
资源
S920X20设备硬盘背板BP1告警上电超时问题案例分享

S920X20设备硬盘背板BP1告警上电超时问题案例分享

案例分享鲲鹏硬件

发表于 2026/06/29

0

1 问题现象描述

硬件配置

  • 型号:S920X20
  • 配置:16NVMe背板,8pcs NVMe硬盘(HWE72P453T8L007N),1pcs SATA SSD,2张IO模组,搭配CX6网卡

问题现象

局点交付后出现4台S920X20设备告警BP1背板上电超时,设备整机无法正常上电。

告警信息:The BC83NHBV power BP_12V0 failure results host power-on timed out



2 关键过程与根因分析

关键过程

Step 1:故障现象确认

现场故障设备告警现象均一致,均为 The BC83NHBV power BP_12V0 failure results host power-on timed out,整机无法正常上电。

Step 2:寄存器分析

排查硬盘背板上电超时寄存器置位为0x08,对应硬盘背板12V缓起电源当时存在异常。

Step 3:问题定位

调查同配置订单,发现:

  • 1月份已交付50台未出现问题
  • 2月交付50台至8个地域,其中2个地域出现问题,其余地域无问题

进一步排查生产测试记录,无差异;排查故障背板的产线订单及加工记录无共性。

Step 4:根因定位

经调查发现,本次交付的出问题机房现场有加装空金属硬盘托架的情况。背景是客户后续可能有增加硬盘的需求,要求出货设备在slot9/slot13加装空硬盘托架,而1月份交付的50台因工期原因未加装,均使用的假面板。

Step 5:问题复现验证

实验室使用空金属硬盘托架安装在slot13槽位,注错托架下部可能短路的位置,会导致12V缓启输出短路,可复现告警。

根因分析

本次交付设备,现场进行了slot13槽位加空金属硬盘托架的操作,因为空架子无支撑,操作过程概率性触碰背板侧电容,导致背板12V缓起输出短路,最终产生上电超时。



3 结论、解决方案及效果

结论

本次交付设备,现场进行了slot13槽位加空金属硬盘托架的操作,因为空架子无支撑,操作过程概率性触碰背板侧电容,导致背板12V缓起输出短路,最终产生上电超时。

解决方案

  1. 现场出问题设备更换硬盘背板
  2. 拔除空金属硬盘托架,使用假面板替代

效果

更换背板并使用假面板后,设备恢复正常运行,未再出现上电超时告警。



4 经验总结与预防措施

经验总结

  1. 空金属硬盘托架在安装过程中存在碰触背板电容的风险,可能导致12V缓启电源短路
  2. 现场加装配件的操作需要严格规范,避免类似问题再次发生
  3. 问题具有一定的概率性,与安装操作手法密切相关

预防措施

  1. 建议出货设备默认使用假面板而非空硬盘托架
  2. 如客户确需加装空硬盘托架,应在工厂完成并确保安装规范
  3. 现场操作时需对安装人员进行培训,强调轻拿轻放,避免碰触周围器件

规范建议

  1. 针对现场加装配件场景,制定专门的安装操作规范
  2. 建议在托架与背板之间增加绝缘隔离措施

本页内容