开发者
资源
TaiShan 200 5290 服务器多块硬盘链路down问题案例分析

TaiShan 200 5290 服务器多块硬盘链路down问题案例分析

案例分享鲲鹏硬件

发表于 2026/06/30

0

1 问题现象描述

硬件配置

  • 型号:TaiShan 200 5290服务器
  • 配置:2*EXP板子+60盘硬盘抽屉+12*3.5后置背板

问题现象

系统下多块硬盘出现down告警。


2 关键过程与根因分析

关键过程

Step 1:背板配置确认

  • BMC显示硬盘抽屉配置Disk0-Disk59,后置12*3.5背板配置Disk60-Disk71
  • 后置IO模组1上配置1个硬盘Disk72
  • 后置IO模组3上的NVME硬盘背板配置4块硬盘Disk74-Disk76
  • 总共配置SAS/SATA硬盘73块,NVME硬盘4块

Step 2:硬盘链路检查

  • lsblk查看盘信息:77块硬盘均在位

  • ls -l /dev/disk/by-path/ 查看链路:所有硬盘链路均在位

Step 3:日志分析

分析message发现有大量的sas: broadcast received和sas: REVALIDATING DOMAIN日志。


sas: broadcast received: 0
sas: REVALIDATING DOMAIN on port 0, pid:3532532
sas: Expander phy change count has changed
sas: ex 500e004aaaaa883f phy14 originated BROADCAST(CHANGE)
sas: ex 500e004aaaaa883f phy14 new device attached
sas: done REVALIDATING DOMAIN on port 0, pid:3532532, res 0x0

Step 4:定位问题链路

  • ex 500e004aaaaa883f phy14大量出现new device attached(新设备已连接),其他链路无异常记录。

  • phy14频繁有phy change的打印,说明EXP一直检测到phy链路状态变更,并上报对应的广播事件。 这种只有phy14反复闪断才有可能造成。
  • 可能是对应槽位的盘有问题,phy14链路接触不良等。
  • ex 500e004aaaaa883f phy14对应的pci-0000:74:02.0-sas-exp0x500e004aaaaa883f-phy14,对应到物理槽位号为Disk44

Step 5:排查验证

  • 拔插Disk44未恢复
  • 更换Disk44未恢复
  • 对调EXP板子后故障依旧

涉及链路:Disk44——60盘硬盘背板——EXP2板子——EXP2到中置背板上的slim SAS线缆——中置背板——硬盘MAZZ卡——主板

对调EXP板子后:

排查链路和盘的数量均正常,上电两小时后又出现同样的问题

1月8日11点42分排查down的硬盘,14点31分对掉的EXP板子

181917分排查发现同样的盘存在down的记录:盘的槽位分别为 36 - 59

对调EXP板子后故障依旧,非EXP板子故障引起,建议更换60盘硬盘背板和EXP板子到中置背板的slim SAS高速线缆。

组网是用的EXP背板,pci-0000:74:02.0-sas-exp0x500e004aaaaa883f-phy14频繁有phy change的打印,说明 EXP一直检测到phy链路状态变更,并上报对应的广播事件。 这种链路phy14反复频繁闪断。

涉及的链路有Disk44——60盘硬盘背板——EXP2板子——EXP2到中置背板上的slim SAS 线缆——中置背板——硬盘 MAZZ卡——主板,逐一排查。

根因分析:

硬盘抽屉的60*3.5硬盘背板链路存在故障导致多盘掉盘。


3 结论、解决方案及效果

结论

硬盘抽屉的60*3.5硬盘背板链路存在故障,导致多块硬盘出现链路down告警。

解决方案

更换硬盘抽屉的60*3.5硬盘背板和EXP2的slim SAS高速信号线缆。

效果

更换背板和线缆后故障消除,硬盘链路恢复正常。


4 经验总结与预防措施

经验总结

  1. EXP背板phy14链路频繁闪断可能导致多块硬盘出现链路异常
  2. 问题定位需要逐级排查整个链路:硬盘→背板→EXP板子→线缆→中置背板→MAZZ卡→主板

预防措施

  1. 定期检查硬盘背板链路健康状态
  2. 对于多盘同时出现异常的场景,优先排查背板和EXP板子

本页内容