鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

多节点运行mpirun时报某个文件无法找到或打开

现象描述

  • 多节点运行mpirun命令时,报某个.so文件无法找到或打开。

    mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2 /AllReduce

    1
    mpirun: error while loading shared libraries: libopen-rte.so.40: cannot open shared object file: No such file or directory
    
  • 多节点运行mpirun命令时,报某个文件无法找到或打开。

    mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2 /AllReduce

    1
    bash: /Hyper-MPI_x.x.x_aarch64_CentOS7.6_GCCx.x.x_MLNX-OFED5.0/ompi/bin/orted: No such file or directory
    

可能原因

  • 报某个.so文件无法找到或打开。

    “.bashrc”文件未配置“LD_LIBRARY_PATH”环境变量。

  • 报某个文件无法找到或打开。

    两个节点Hyper MPI安装路径不同。

恢复步骤

  • 报某个.so文件无法找到或打开。
    1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
    2. 检查环境变量是否配置正确,详情请参见设置环境变量
  • 报某个文件无法找到或打开。
    1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
    2. 检查所有节点是否都安装Hyper MPI且各节点安装路径是否一致,或者检查Hyper MPI是否安装在已挂载的共享目录上。