开发者
资源
S920X20 服务器线缆告警问题案例分析

S920X20 服务器线缆告警问题案例分析

案例分享鲲鹏硬件

发表于 2026/06/30

0

1 问题现象描述

硬件配置

  • 型号:S920X20服务器
  • 配置:2*Kunpeng 920 7280Z+16*DIMM+8*2.5 SAS/SATA

问题现象

BMC上报告警:The unit 00000001030302023925(BC83HBBA) linked to connector CPU1 UBC3 of BCU1 is not supported.


2 关键过程与根因分析

关键过程

Step 1:告警分析

该告警是基础板到前置硬盘背板的接线连接错误的告警。

Step 2:线缆连接检查

该机型使用的是前置8 SAS/SATA硬盘背板,直通配置:

  • 基础板CPU1 UBC3连接器连接一根一分为二的SAS线缆到前置硬盘背板的PortA和PortB的位置
  • 线缆较长的Mini-SAS接口接PortA/J28,较短的接PortB/J1

实物图:

基础板CPU1 UBC3连接器位置:

具体布线:

该SAS线缆为一分为二的线缆,线缆较长的Mini-SAS接口接(PortA/J28),线缆较短的Mini-SAS接口接(PortB/J1)

检查下这个接线是否都正确连接。(一定要按照布线图操作)

Step 3:更换排查

客户侧已经更换过:

  • 前置8*2.5 SAS/SATA硬盘背板(BOM:0302023925)
  • 一分二线缆(BOM:14270177)
  • 基础板(BOM:06411792)

更换基础板后告警依旧。

Step 4:PSR固件分析

分析线缆告警信息,查看线缆白名单,当前该背板需要接基础板的UBC为C7b、C7a(对应十六进制0X21、0X20,转换为十进制为33、32)。

在PSR文件中未找到该UID对应的背板信息。

Step 5:定位根因

如果在PSR文件中没有配置背板的UID信息,原因有三点:

  1. 没有升级PSR
  2. 没有升级带这个背板的UID信息的PSR
  3. 升级了不带背板的UID信息的PSR

分析第一次产生告警的时间为2026-02-05 14:59:01,查看操作日志发现在14:54分升级了PSR,固件版本为S920X20-BC83RCTAF-PSR_3.44.hpm。

2026年2月5日14点59分出现的第一次线缆告警。与升级PSR版本关系很大。

BC83RCTAF为无硬盘背板时才升级的版本。当前服务器是配置有一个8*2.5SAS/SATA前置硬盘背板。

根据如下定理:

没有前置硬盘背板组件时,需要升级PSR固件版本S920X20-BC83RCIAF-PSR_3.44.hpm

有前置硬盘背板组件时,需要升级PSR固件版本S920X20-BC83RCIA-PSR_3.44.hpm

配置了8*2.5SAS/SATA前置硬盘背板就需要升级到S920X20-BC83RCIA-PSR_3.44.hpm版本。

升级PSR版本为S920X20-BC83RCIA-PSR_3.44.hpm

升级后告警解除:

再在Connector_PSR_EEP_0101.rs文件中查看背板的UID和连接信息恢复正常。

C7b 对应的十六进制为0x21,转换为十进制为33

C7a 对应的十六进制为0x20,转换为十进制为32


根因分析

升级固件时未查看是否有前置硬盘背板组件,错误升级了PSR固件为BC83RCTAF版本(无背板版本),导致BMC上报线缆告警。正确应升级BC83RCIA版本(有线缆背板版本)。


3 结论、解决方案及效果

结论

升级固件时未根据实际配置选择正确的PSR版本,错误升级了无硬盘背板版本的PSR固件,导致BMC上报线缆告警。

解决方案

升级正确的PSR固件版本:S920X20-BC83RCIA-PSR_3.44.hpm

效果

升级正确版本的PSR后,BMC告警消除,线缆连接状态恢复正常。


4 经验总结与预防措施

经验总结

  1. S920X20服务器有两种PSR固件版本:有前置硬盘背板和无前置硬盘背板
  2. 升级PSR固件前必须确认服务器是否配置了前置硬盘背板
  3. 错误升级不匹配的PSR固件会导致线缆告警

预防措施

  1. 升级PSR固件前先确认服务器配置
  2. 根据实际配置选择对应版本的PSR固件


本页内容