故障处理
当利用Hyper MPI提交任务出现异常或者报错时,可通过“回退法”来定位故障原因,并通过以下方式进行故障处理。
- 切换成默认算法。
- 如无故障,说明指定算法不支持当前场景,可联系华为技术支持获取帮助。
- 如仍有故障,进行2。
- 切换成Non-coll模式。
在mpirun命令中增加--mca coll ^ucx参数进行提交,如无故障,说明Open MPI支持此场景但Hyper MPI不支持。
如仍有故障,可能性有两个:
- Open MPI本身不支持该场景。
- MPI使用方法不当。可从环境变量设置、MPI安装等多方面进行排查,具体可参考《Hyper MPI 1.0.1 用户指南 01》的FAQ部分。
父主题: 维护指南