开发者
资源
S920X00 SP681网卡ROCE连存储FIO测试link down网口后流量仍正常传输问题案例分析

S920X00 SP681网卡ROCE连存储FIO测试link down网口后流量仍正常传输问题案例分析

案例分享硬件加速

发表于 2026/06/29

0

1 问题现象描述

硬件配置

  • 型号:S920X00
  • 配置:SP681网卡

问题现象

服务器端使用两块SP681网卡各出1个网口通过交换机连接到存储,在做单双网卡切换测试时,发现ethtool显示网口已link down,但流量仍正常转发。



2 关键过程与根因分析

关键过程

Step 1:组网确认

服务器端使用两块SP681网卡各出1个网口通过交换机连接到存储侧。

Step 2:故障现象

ethtool网口名查询已经link down,hinic func table查询已经是invalid,但流量却还是正常转发,hilink命令查询确实还是link up状态。

Step 3:验证测试

拔光纤是可以确认linkdown停流,或者对端交换机link down是可以正常停流的。

Step 4:问题定位

lldp命令查询是开启状态,将lldp关闭后该问题恢复,排查发现为网卡软件bug。


Step 5:规避方案

如果需要保持启用lldp,在当前驱动、固件版本下可通过将光功率down后,可正常停流。

根因分析

LLDP的正常特性:开启LLDP后,要保持mac port一直开启,网卡才能间隔发送LLDP报文给周边设备,不然发送不出去。SP681网卡软件存在bug,导致link down后流量仍正常传输。



3 结论、解决方案及效果

结论

SP681网卡软件存在bug,开启LLDP时即使网口link down,流量仍通过hilink保持正常传输。

解决方案

关闭LLDP或关闭光模块发光功率来规避解决。

效果

关闭LLDP后,link down可正常停流。



4 经验总结与预防措施

经验总结

  1. LLDP机制会影响网口的link状态检测
  2. 网卡软件bug可能导致流量异常

预防措施

  1. 在使用SP681网卡时确认LLDP配置
  2. 关注网卡固件更新,修复已知bug

本页内容