运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:ibv_wr_complete fail, ret 12
现象描述
运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:
ibv_wr_complete fail, ret 12
可能原因
Stars部分算法(如Bcast算法3、4,Allgatherv算法1)在ibv qp上下发的任务数较多,在作业进程数较大的场景下可能产生qp队列溢出的情况,造成以上报错。
恢复步骤
- 增大Stars RC qp队列深度,可通过“UCG_PLANC_STARS_RC_TX_QUEUE_LEN”参数设置,默认为1024,,建议设置为8192。
- 建议使用Stars卸载时单通信域进程不超过1024进程。
父主题: FAQ