鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:ibv_wr_complete fail, ret 12

现象描述

运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:

ibv_wr_complete fail, ret 12

可能原因

Stars部分算法(如Bcast算法3、4,Allgatherv算法1)在ibv qp上下发的任务数较多,在作业进程数较大的场景下可能产生qp队列溢出的情况,造成以上报错。

恢复步骤

  • 增大Stars RC qp队列深度,可通过“UCG_PLANC_STARS_RC_TX_QUEUE_LEN”参数设置,默认为1024,,建议设置为8192。
  • 建议使用Stars卸载时单通信域进程不超过1024进程。