推荐命令
在调用Hyper MPI运行应用时,会同时调用Allreduce、Bcast、Barrier、Allgatherv、Gatherv和Scatterv操作,此时的推荐算法命令示例如下(鲲鹏芯片):
mpirun -np 16 -N 2 --hostfile hf --mca btl ^vader,tcp,openib --map-by socket --rank-by core --bind-to core -x UCX_TLS=sm,rc_x -x UCG_PLANC_UCX_BCAST_ATTR=I:3 -x UCG_PLANC_UCX_ALLREDUCE_ATTR=I:6 -x UCG_PLANC_UCX_BARRIER_ATTR=I:5S:200R:0 -x UCG_PLANC_UCX_ALLGATHERV_ATTR=I:5S:200R:0 -x UCG_PLANC_UCX_GATHERV_ATTR=I:2 -x UCG_PLANC_UCX_SCATTERV_ATTR=I:1 test_case
- 在调用Hyper MPI运行应用时,会同时调用Allreduce、Bcast、Barrier和Alltoallv操作,此时的推荐算法命令示例如下(鲲鹏芯片):
mpirun -np 16 -N 2 --hostfile hf --mca btl ^vader,tcp,openib --map-by socket --rank-by core --bind-to core -x UCX_TLS=sm,rc_x -x UCG_PLANC_UCX_BCAST_ATTR=I:3 -x UCG_PLANC_UCX_ALLREDUCE_ATTR=I:6 -x UCG_PLANC_UCX_BARRIER_ATTR=I:1 -x UCG_PLANC_UCX_ALLTOALLV_ATTR=I:1 test_case
- 在调用Hyper MPI运行OSU Benchmark时,如果单独测试osu_barrier接口,可以通过将barrier接口的算法指定为10,使barrier接口获得更优的性能指标。指定示例如下:
mpirun -np 16 -N 2 --hostfile hf --mca btl ^vader,tcp,openib --map-by socket --rank-by core --bind-to core -x UCX_TLS=sm,rc_x -x UCG_PLANC_UCX_BARRIER_ATTR=I:10 osu_barrier