-x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3
-x UCX_BUILTIN_DEGREE_INTRA_FANIN=8
-x UCX_BUILTIN_DEGREE_INTER_FANOUT=7 -x UCX_BUILTIN_DEGREE_INTER_FANIN=7
-x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3 -x UCX_BUILTIN_DEGREE_INTRA_FANIN=8
为提高性能,也可加入以下选项:
-x UCX_TLS=sm,rc_x
综上,在调用MPI_Allreduce时运行命令示例如下(鲲鹏芯片):
mpirun -np 16 -N 2 --hostfile hf8 --mca btl ^vader,tcp,openib -x UCX_TLS=sm,rc_x -x UCX_BUILTIN_ALLREDUCE_ALGORITHM=n test_case
-x UCX_BUILTIN_DEGREE_INTER_FANOUT=7
-x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3
为提高性能,也可加入以下选项:
–x UCX_TLS=sm,rc_x
综上,在调用MPI_Bcast时运行命令示例如下(鲲鹏芯片):
mpirun -np 16 -N 2 --hostfile hf8 --mca btl ^vader,tcp,openib -x UCX_TLS=sm,rc_x -x UCX_BUILTIN_BCAST_ALGORITHM=n test_case
从MPI_Barrier算法地图可知,MPI_Barrier的算法是MPI_Allreduce算法的子集,因此可参考MPI_Allreduce指定算法说明部分,此处不再赘述。
在选用算法1时,可通过调整以下参数值,寻找最优参数值已获得最佳性能,命令示例如下:
-x UCX_BUILTIN_LADD_THEROTTLED_FACTOR=7
为提高性能,也可加入以下选项:
–x UCX_TLS=sm,rc_x
综上,在调用MPI_Alltoallv时运行命令示例如下(鲲鹏芯片):
mpirun -np 16 -N 2 --hostfile hf8 --mca btl ^vader,tcp,openib -x UCX_TLS=sm,rc_x -x UCX_BUILTIN_ALLTOALLV_ALGORITHM=n test_case