开发者
资源
手动禁用port口导致NVMe盘失效问题案例分析

手动禁用port口导致NVMe盘失效问题案例分析

案例分享鲲鹏硬件

发表于 2026/06/29

0

1 问题现象描述

硬件配置

  • 型号:S920
  • 配置:(8 SAS/SATA +12 NVMe) 背板 + 满插NVMe硬盘

问题现象

disk14(nvme盘)上报硬盘failure(业务部署阶段)。

首次更换硬盘未解决,更换硬盘背板及背板线缆未解决。根据pcie链路建议更换主板及riser卡仍未解决。



2 关键过程与根因分析

关键过程

Step 1:BIOS日志分析

排查更换主板后的BIOS日志,搜索link up确认建链情况。

Step 2:硬盘VID/DID确认

确认硬盘VID:0X144D(厂商ID),DID:0XA808(设备型号ID),同款设备的VID和DID一致。

Step 3:链路检查

仅识别到11块硬盘,搜索BIOS阶段发现pcie[20]被禁用。

Step 4:参数检查

查看更换主板前后BIOS参数currentvalue,发现port口被禁用。

Step 5:配置导入问题

经确认,该参数仅能通过手动修改,更换前主板操作日志未见参数修改打印,怀疑与主板版本较低导致未记录。

新更换主板记录到配置导入导致新更换主板pcie端口被禁用。

Step 6:问题根因

业务厂商部署阶段有禁用多余网卡需求,业务厂商错误关闭了port口,导致nvme盘上报failure。

Step 7:处理结果

开启pcie端口后,硬盘概率性识别(port20反复建链怀疑更换动作导致pcie链路不稳),保障性更换全链路解决。(左为问题日志,右为正常设备)

Step 8:复现验证

同一台设备若干天后出现disk8告警,operate抓到bios下禁用port的记录。

硬盘告警发生在重启进bios后,现场开启port口后解决。

根因分析

  1. 业务厂商部署阶段错误禁用了多余的pcie port口,导致nvme盘上报failure
  2. 首次更换主板后问题未解决,是因为bios禁用port口配置被导入到新主板


3 结论、解决方案及效果

结论

业务厂商在部署阶段错误禁用了pcie port口,导致nvme盘被识别为failure。

解决方案

在BIOS中开启被禁用的pcie端口。

效果

开启端口后硬盘恢复正常识别。



4 经验总结与预防措施

经验总结

最小化测试tip:

  • 可以交叉线缆侧连线,修改硬盘与主板间的pcie连接拓扑,查看bios下识别的硬盘槽位是否发生变换
  • 若交叉后BIOS下不识别硬盘发生变化,说明问题跟随线缆、硬盘背板、硬盘
  • 若交叉后BIOS下不识别硬盘编码,说明问题跟随主板或riser卡

  • 如果状态机在02/03反复切换,说明对端未识别到设备

预防措施

  1. 部署前确认BIOS配置未被错误修改
  2. 记录正常配置以便恢复

本页内容