鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

多节点运行mpirun时报某个文件无法找到或打开

现象描述

  • 多节点运行mpirun命令时,报某个.so文件无法找到或打开。
    $ mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2  /AllReduce
    mpirun: error while loading shared libraries: libopen-rte.so.40: cannot open shared object file: No such file or directory
  • 多节点运行mpirun命令时,报某个文件无法找到或打开。
    $ mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2  /AllReduce
    bash: /Hyper-MPI_x.x.x_aarch64_CentOS7.6_GCC10.3.1_MLNX-OFED5.0/ompi/bin/orted: No such file or directory

可能原因

  • 报某个.so文件无法找到或打开。

    “bashrc”文件未配置“LD_LIBRARY_PATH”环境变量。

  • 报某个文件无法找到或打开。

    两个节点Hyper MPI安装路径不同。

恢复步骤

  • 报某个.so文件无法找到或打开。
    1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
    2. 检查环境变量是否配置正确,详情请参见配置环境变量《HPC 23.0.RC2 安装指南》 > (可选)安装Hyper MPI > 源码安装Hyper MPI(开源组件) > 配置环境变量
  • 报某个文件无法找到或打开。
    1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
    2. 检查所有节点是否都安装有Hyper MPI且各节点安装路径是否一致,或者检查Hyper MPI是否安装在已挂载的共享目录上。