如果mpirun命令的运行环境中存在多个不同的网络平面,即UCX模块使用了多个不同网段的网口,则需要在mpirun命令的启动参数中额外增加-x UCX_RC_VERBS_ROCE_LOCAL_SUBNET=y和-x UCX_UD_VERBS_ROCE_LOCAL_SUBNET=y参数,否则会因网络不通导致下发任务卡住。
示例如下:
mpirun -np 16 -N 16 -x PATH -x LD_LIBRARY_PATH -x UCX_RC_VERBS_ROCE_LOCAL_SUBNET=y -x UCX_UD_VERBS_ROCE_LOCAL_SUBNET=y -x UCX_NET_DEVICES=mlx5_0:1,mlx5_1:1 osu_init