管理、计算网卡都使用板载网卡并安装RDMA驱动,跑多节点OSU集合通信测试不指定网卡报错
现象描述
管理、计算网卡都使用板载网卡并安装RDMA驱动,在多节点OSU集合通信测试中,不指定网卡会报错,报错信息中提示流量走到管理口:
[node35:1880003:0:1880003] ud_ep.c:282 Fatal: UD endpoint 0xaaaae8a908c0 to :0: unhandled timeout error with local dev name:roceo1 remote dev gid:[subnet prefix:0 interface id:19004742ffff0000]
可能原因
板载网卡驱动将管理网口和计算网口都识别为RDMA网口,HMPI不同进程可能分别选择管理网口和计算网口进行通信,由于管理网络和计算网络不通导致报错。
恢复步骤
在运行MPI应用时只指定计算网口为可用的RDMA网口,排除管理网口。
父主题: FAQ