HPC应用程序异常退出的解决方法

现象描述

启动HPC应用程序,执行MPI_INIT函数后,继续执行调试命令,在程序未运行完的情况下显示“All ranks has exited”报错信息。

图1 报错信息
图2 日志报错信息

请在工具安装路径下查找“debugger/logs/debugger/debugger.log”文件,在文件中搜索“Mpirun temp log file”日志信息查找调试程序启动日志路径。

可能原因

随着rank数增加,网络层面rank间初始化和通信负载增加较大,当以LLDB-Server启动目标程序时会导致模块性能下降,在高负载情况下会引起数据传输中断,OpenMPI初始化失败退出。

处理步骤

启动调试任务时指定-e参数添加环境变量,例如:

-e "export PMIX_MCA_gds=^ds21"