开发者
资源
S920X00 SP681网卡ROCE连存储FIO测试切换网口后出现8秒异常跌零现象案例分析

S920X00 SP681网卡ROCE连存储FIO测试切换网口后出现8秒异常跌零现象案例分析

案例分享鲲鹏硬件

发表于 2026/06/29

0

1 问题现象描述

硬件配置

  • 型号:S920X00
  • 配置:SP681网卡

问题现象

服务器端使用两块SP681网卡各出1个网口通过交换机连接到存储,在做单双网卡切换测试时,发现每次切换时存储IO会出现8秒钟的异常归零现象。



2 关键过程与根因分析

关键过程

Step 1:驱动固件排查

排查网卡驱动固件版本配套且较新,不存在该类问题。

Step 2:组网分析

服务器端使用两块SP681网卡各出1个网口通过交换机连接到存储侧。

Step 3:网卡日志分析

其中一个网口主动设置down后,另一个网口日志在FIO测试跌零时间点无驱动固件异常打印且物理链路为正常up状态,推测为存储侧多路径软件未及时切换导致异常归零现象。

Step 4:存储多路径分析

当前多路径是采用自动建连机制(未使用inof),两个网口共用服务器roce协议队列,该场景下断开其中一个网口后,主机roce协议需要等链路上所有IO都返回给上层,上层收到完成事件后才继续下发IO,故出现异常归零8秒钟现象。

根因分析

存储多路径采用自动建连机制(未使用inof),两个网口共用服务器roce协议队列。断开其中一个网口后,主机roce协议需要等链路上所有IO都返回给上层,上层收到完成事件后才继续下发IO,导致出现8秒异常归零现象。



3 结论、解决方案及效果

结论

存储多路径软件在双网卡切换时未能及时完成路径切换,导致ROCE协议队列需要等待所有在途IO完成后才能继续下发,出现8秒IO归零现象。

解决方案

存储多路径通过配置inof可以减少跌零时间。

效果

配置inof后,切换时间显著缩短。



4 经验总结与预防措施

经验总结

  1. 多路径软件配置影响存储切换性能
  2. inof机制可以加速路径切换

预防措施

  1. 部署多路径时评估切换性能需求
  2. 根据业务场景选择合适的multipath配置

本页内容