鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

运行MPI作业,指定传输协议为RC或者UD时创建qp报错:No space left on device

现象描述

运行MPI作业,指定传输协议为RC或者UD时创建qp报错:

1
2
UCX ERROR Failed to create RC QP TX wr:256 sge:5 in1:64 resp:64 RX wr:0 sge:1 resp:64: No space left on device failed: No space left on device
UCX ERROR Failed to create UD QP TX wr:256 sge:6 inl:64 resp:0 RX wr:4096 sge:1 resp:0: No space left on device failed: No space left on device

可能原因

当MPI作业的建链数过大,所需qp数量超过硬件最大限制而资源不足时,会发生该报错。通过执行ibv_devinfo -v命令可以查看网口能够创建的最大qp数量max_qp。

1
max_qp:    1048576

恢复步骤

为了确保MPI作业能够正常运行,可以尝试从以下两个方面进行优化:

  • 增加MPI作业使用的网口数量,以减少单一网口所需创建的qp数量。例如,使用两个及以上网口进行通信。
  • 减少MPI作业所需qp数量,例如,尝试优化进程排布以减少建链数。