TaiShan 200 5290 服务器多块硬盘链路down问题案例分析
发表于 2026/06/30
0
1 问题现象描述
硬件配置
- 型号:TaiShan 200 5290服务器
- 配置:2*EXP板子+60盘硬盘抽屉+12*3.5后置背板
问题现象
系统下多块硬盘出现down告警。
2 关键过程与根因分析
关键过程
Step 1:背板配置确认
- BMC显示硬盘抽屉配置Disk0-Disk59,后置12*3.5背板配置Disk60-Disk71
- 后置IO模组1上配置1个硬盘Disk72
- 后置IO模组3上的NVME硬盘背板配置4块硬盘Disk74-Disk76
- 总共配置SAS/SATA硬盘73块,NVME硬盘4块



Step 2:硬盘链路检查
- lsblk查看盘信息:77块硬盘均在位


- ls -l /dev/disk/by-path/ 查看链路:所有硬盘链路均在位


Step 3:日志分析
分析message发现有大量的sas: broadcast received和sas: REVALIDATING DOMAIN日志。
sas: broadcast received: 0
sas: REVALIDATING DOMAIN on port 0, pid:3532532
sas: Expander phy change count has changed
sas: ex 500e004aaaaa883f phy14 originated BROADCAST(CHANGE)
sas: ex 500e004aaaaa883f phy14 new device attached
sas: done REVALIDATING DOMAIN on port 0, pid:3532532, res 0x0

Step 4:定位问题链路
- ex 500e004aaaaa883f phy14大量出现new device attached(新设备已连接),其他链路无异常记录。

- phy14频繁有phy change的打印,说明EXP一直检测到phy链路状态变更,并上报对应的广播事件。 这种只有phy14反复闪断才有可能造成。
- 可能是对应槽位的盘有问题,phy14链路接触不良等。
- ex 500e004aaaaa883f phy14对应的pci-0000:74:02.0-sas-exp0x500e004aaaaa883f-phy14,对应到物理槽位号为Disk44



Step 5:排查验证
- 拔插Disk44未恢复
- 更换Disk44未恢复
- 对调EXP板子后故障依旧
涉及链路:Disk44——60盘硬盘背板——EXP2板子——EXP2到中置背板上的slim SAS线缆——中置背板——硬盘MAZZ卡——主板

对调EXP板子后:

排查链路和盘的数量均正常,上电两小时后又出现同样的问题
1月8日11点42分排查down的硬盘,14点31分对掉的EXP板子

1月8日19点17分排查发现同样的盘存在down的记录:盘的槽位分别为 36 - 59


对调EXP板子后故障依旧,非EXP板子故障引起,建议更换60盘硬盘背板和EXP板子到中置背板的slim SAS高速线缆。

组网是用的EXP背板,pci-0000:74:02.0-sas-exp0x500e004aaaaa883f-phy14频繁有phy change的打印,说明 EXP一直检测到phy链路状态变更,并上报对应的广播事件。 这种链路phy14反复频繁闪断。
涉及的链路有Disk44——60盘硬盘背板——EXP2板子——EXP2到中置背板上的slim SAS 线缆——中置背板——硬盘 MAZZ卡——主板,逐一排查。
根因分析:
硬盘抽屉的60*3.5硬盘背板链路存在故障导致多盘掉盘。
3 结论、解决方案及效果
结论
硬盘抽屉的60*3.5硬盘背板链路存在故障,导致多块硬盘出现链路down告警。
解决方案
更换硬盘抽屉的60*3.5硬盘背板和EXP2的slim SAS高速信号线缆。
效果
更换背板和线缆后故障消除,硬盘链路恢复正常。
4 经验总结与预防措施
经验总结
- EXP背板phy14链路频繁闪断可能导致多块硬盘出现链路异常
- 问题定位需要逐级排查整个链路:硬盘→背板→EXP板子→线缆→中置背板→MAZZ卡→主板
预防措施
- 定期检查硬盘背板链路健康状态
- 对于多盘同时出现异常的场景,优先排查背板和EXP板子


