鲲鹏社区首页
中文
注册
开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

由于网卡配置不当引起的超时报错:connect... failed:Connection timed out

现象描述

多节点运行MPI作业,作业无法正常运行,返回如下报错信息:

[1703209660.081479] [node167:2042308:0]           sock.c:272 UCX ERROR connect(fd=37, dest_addr=66.66.66.168:49703) failed: Connection timed out  
[node167:2042308] pml_ucx.c:426  Error: ucp_ep_create(proc=0) failed: Destination is unreachable

可能原因

  • 防火墙没有关闭,导致建链失败。
  • 如果使用RoCE网络,可能是RoCE网络没有配置,网口没有指定IP地址,通过show_gids命令检查发现RoCE网口没有配置IP地址。
    DEV	PORT	INDEX	GID	                                IPv4	        VeR	DEV 
    ---     ----    -----   ---                                     ------------    ---     --- 
    mlx5_0  1       0       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8                 v1      enplsOfOnp0 
    mlx5_0  1       1       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8	                v2      enp1s0fOnp0 
    mlx5_1  1       0       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9	                v1      enp1s0f1npl 
    mlx5_1	1       1       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9	                v2      enp1s0f1npl 
    n gids found=4

恢复步骤

  • 关闭防火墙。
  • 配置RoCE网络。
    DEV	PORT	INDEX	GID	                                IPv4	        VeR	DEV 
    ---     ----    -----   ---                                     ------------    ---     --- 
    mlx5_0  1       0       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8                 v1      enplsOfOnp0 
    mlx5_0  1       1       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8	                v2      enp1s0fOnp0 
    mlx5_1  1       0       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 xx.xx.xx.xxx    v1      enp1s0f1npl 
    mlx5_1  1       1       fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 xx.xx.xx.xxx    v2      enp1s0f1npl 
    n gids found=4