多节点运行mpirun时报某个文件无法找到或打开
现象描述
- 多节点运行mpirun命令时,报某个.so文件无法找到或打开。
mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2 /AllReduce
1
mpirun: error while loading shared libraries: libopen-rte.so.40: cannot open shared object file: No such file or directory
- 多节点运行mpirun命令时,报某个文件无法找到或打开。
mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2 /AllReduce
1
bash: /Hyper-MPI_x.x.x_aarch64_CentOS7.6_GCCx.x.x_MLNX-OFED5.0/ompi/bin/orted: No such file or directory
恢复步骤
- 报某个.so文件无法找到或打开。
- 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
- 检查环境变量是否配置正确,详情请参见设置环境变量。
- 报某个文件无法找到或打开。
- 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
- 检查所有节点是否都安装Hyper MPI且各节点安装路径是否一致,或者检查Hyper MPI是否安装在已挂载的共享目录上。
父主题: FAQ