由于丢包等网络问题造成的UCP request timeout超时报错
现象描述
MPI运行过程中卡死,卡死超过五分钟后打印超时警告,日志信息如下:
UCP request timeout! request tag *** local proc: *** peer proc: *** peer hostname: ***
可能原因
- 使用RoCE网络运行,但是没有配置网卡侧和交换机侧的无损网络,导致通信过程中丢包
- 可能是计算节点间的网络线路出现了故障
恢复步骤
- 在日志信息中获取发生超时的请求中对端进程所在计算节点
- 如果没有配置网卡侧和交换机侧的无损网络,需要配置后再运行作业
- 如果无损网络没有问题,排查出错节点间的网络线路是否有问题
- 如果网络线路没问题,检查网卡侧或交换机侧的丢包记录检查硬件上是否丢包
- 如果物理链路和硬件配置上暂时排查不出问题,且使用的是RC协议,可以使用UD协议暂时规避问题(RC依赖硬件的重传,而UD软件上会做重传)
父主题: 故障排除