运行MPI作业,网卡驱动报错:transport retry counter exceeded
现象描述
运行MPI作业,网卡驱动报错:
rc_verbs_iface.c:120 send completion with error: transport retry counter exceeded [qpn 0x272 wrid 0x1 vendor_err 0x15]
可能原因
HUCX中的传输层RC不会在软件中做重试,而是借助网卡的硬件重试机制;HUCX在初始化传输层时会配置默认的RC超时时间与重试次数,当数据在集群中传输较慢时,如果超出配置的总超时时间,网卡会返回给HUCX超时事件,HUCX获取到对应超时事件后退出应用。
恢复步骤
- 增大RC单次请求超时时间,可通过“UCX_RC_TIMEOUT”参数设置,默认为1s。
- 增大RC超时的重传次数,可通过“UCX_RC_RETRY_COUNT”参数设置,默认为7次。

需结合网络实际延迟合理设置上述两个参数。
- 若参数设置过大,则会延迟网卡的故障检测,占用系统资源。
- 若参数设置过小,在某些场景(例如网络链路发生拥塞)下会导致网卡超时,应用不稳定,性能下降。
- 若遇到超时错误,建议逐步增大该值并观察结果,合理值需略高于网络最大延迟,避免极端调高。
父主题: FAQ