鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

管理、计算网卡都使用板载网卡并安装RDMA驱动,跑多节点OSU集合通信测试不指定网卡报错

现象描述

管理、计算网卡都使用板载网卡并安装RDMA驱动,在多节点OSU集合通信测试中,不指定网卡会报错,报错信息中提示流量走到管理口:

[node35:1880003:0:1880003]       ud_ep.c:282  Fatal: UD endpoint 0xaaaae8a908c0 to :0: unhandled timeout error with local dev name:roceo1 remote dev gid:[subnet prefix:0 interface id:19004742ffff0000]

可能原因

板载网卡驱动将管理网口和计算网口都识别为RDMA网口,HMPI不同进程可能分别选择管理网口和计算网口进行通信,由于管理网络和计算网络不通导致报错。

恢复步骤

在运行MPI应用时只指定计算网口为可用的RDMA网口,排除管理网口。