S920X00 SP681网卡ROCE连存储FIO测试切换网口后出现8秒异常跌零现象案例分析
发表于 2026/06/29
0
1 问题现象描述
硬件配置
- 型号:S920X00
- 配置:SP681网卡
问题现象
服务器端使用两块SP681网卡各出1个网口通过交换机连接到存储,在做单双网卡切换测试时,发现每次切换时存储IO会出现8秒钟的异常归零现象。

2 关键过程与根因分析
关键过程
Step 1:驱动固件排查
排查网卡驱动固件版本配套且较新,不存在该类问题。

Step 2:组网分析
服务器端使用两块SP681网卡各出1个网口通过交换机连接到存储侧。
Step 3:网卡日志分析
其中一个网口主动设置down后,另一个网口日志在FIO测试跌零时间点无驱动固件异常打印且物理链路为正常up状态,推测为存储侧多路径软件未及时切换导致异常归零现象。
Step 4:存储多路径分析
当前多路径是采用自动建连机制(未使用inof),两个网口共用服务器roce协议队列,该场景下断开其中一个网口后,主机roce协议需要等链路上所有IO都返回给上层,上层收到完成事件后才继续下发IO,故出现异常归零8秒钟现象。
根因分析
存储多路径采用自动建连机制(未使用inof),两个网口共用服务器roce协议队列。断开其中一个网口后,主机roce协议需要等链路上所有IO都返回给上层,上层收到完成事件后才继续下发IO,导致出现8秒异常归零现象。
3 结论、解决方案及效果
结论
存储多路径软件在双网卡切换时未能及时完成路径切换,导致ROCE协议队列需要等待所有在途IO完成后才能继续下发,出现8秒IO归零现象。
解决方案
存储多路径通过配置inof可以减少跌零时间。
效果
配置inof后,切换时间显著缩短。
4 经验总结与预防措施
经验总结
- 多路径软件配置影响存储切换性能
- inof机制可以加速路径切换
预防措施
- 部署多路径时评估切换性能需求
- 根据业务场景选择合适的multipath配置


