运行MPI作业,指定传输协议为RC或者UD时创建qp报错:No space left on device
现象描述
运行MPI作业,指定传输协议为RC或者UD时创建qp报错:
1 2 | UCX ERROR Failed to create RC QP TX wr:256 sge:5 in1:64 resp:64 RX wr:0 sge:1 resp:64: No space left on device failed: No space left on device UCX ERROR Failed to create UD QP TX wr:256 sge:6 inl:64 resp:0 RX wr:4096 sge:1 resp:0: No space left on device failed: No space left on device |
可能原因
当MPI作业的建链数过大,所需qp数量超过硬件最大限制而资源不足时,会发生该报错。通过执行ibv_devinfo -v命令可以查看网口能够创建的最大qp数量max_qp。
1 | max_qp: 1048576 |
恢复步骤
为了确保MPI作业能够正常运行,可以尝试从以下两个方面进行优化:
- 增加MPI作业使用的网口数量,以减少单一网口所需创建的qp数量。例如,使用两个及以上网口进行通信。
- 减少MPI作业所需qp数量,例如,尝试优化进程排布以减少建链数。
父主题: FAQ