鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

故障处理

当利用Hyper MPI提交任务出现异常或者报错时,可通过“回退法”来定位故障原因,并通过以下方式进行故障处理。

  1. 切换成默认算法。
    • 如无故障,说明指定算法不支持当前场景,可联系华为技术支持获取帮助。
    • 如仍有故障,进行2
  2. 切换成Non-coll模式。

    在mpirun命令中增加--mca coll ^ucx参数进行提交,如无故障,说明Open MPI支持此场景但Hyper MPI不支持。

    如仍有故障,可能性有两个:

    1. Open MPI本身不支持该场景。
    2. MPI使用方法不当。可从环境变量设置、MPI安装等多方面进行排查,具体可参考《Hyper MPI 1.0.1 用户指南 01》的FAQ部分。