Hyper MPI使用MPI_Allreduce算法6,MPI_Barrier算法5,MPI_Bcast算法3能获得较优的性能指标。
mpirun -np 384 -N 48 --hostfile hf --bind-to core --map-by socket --rank-by core --mca btl ^vader,tcp,openib -x UCX_TLS=sm,ud_x -x UCX_NET_DEVICES=mlx5_0:1 -x UCX_BUILTIN_ALLREDUCE_ALGORITHM=6 -x UCX_BUILTIN_BARRIER_ALGORITHM=5 -x UCX_BUILTIN_BCAST_ALGORITHM=3 -x UCX_BUILTIN_ALLTOALLV_ALGORITHM=2 -x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3 -x UCX_BUILTIN_DEGREE_INTRA_FANIN=2 -x
UCX_BUILTIN_DEGREE_INTER_FANOUT=7 -x UCX_BUILTIN_DEGREE_INTER_FANIN=7 test_case
mpirun -np 384 -N 48 --hostfile hf --bind-to core --map-by socket --rank-by core --mca btl ^vader,tcp,openib -x UCX_TLS=sm,ud -x UCX_NET_DEVICES=mlx5_1:1 -x UCX_BUILTIN_ALLREDUCE_ALGORITHM=6 -x UCX_BUILTIN_BARRIER_ALGORITHM=5 -x UCX_BUILTIN_BCAST_ALGORITHM=3 -x UCX_BUILTIN_ALLTOALLV_ALGORITHM=2 -x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3 -x UCX_BUILTIN_DEGREE_INTRA_FANIN=2 -x UCX_BUILTIN_DEGREE_INTER_FANOUT=7 -x UCX_BUILTIN_DEGREE_INTER_FANIN=7 test_case
IB和RoCE两种网络环境均使用鲲鹏服务器架构和Mellanox类型的网卡。