多节点运行mpirun时异常

现象描述

可能原因

多节点运行mpirun命令时,存在节点与节点间不能互相通讯。

恢复步骤

  1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
  2. 检查所有节点是否都安装有Hyper MPI且各节点安装路径是否一致,或者检查Hyper MPI是否安装在已挂载的共享目录上。
  3. 检查环境变量是否配置正确,详情请参见配置环境变量