HUCX RC多网口容错
Hyper MPI中HUCX实现了RC(Reliably Connected)多网口容错(rc_failover)功能。该功能使用多个网口,通过自动检测网口异常状态并将业务流量切换至可用网口上实现容错,减少业务因网络组件故障而异常终止的概率。
当前该功能只支持RC连接方式。通过在mpirun命令行中添加如表1所示参数来配置该功能。
参数 |
是否必选 |
说明 |
---|---|---|
-x UCX_TLS=rc_f |
是 |
指定传输模式为“rc_f”。 |
-x UCX_ MAX_EAGER_RAILS=2 |
是 |
使用EAGER多轨。EAGER通道通常用于处理小包场景,为双边通信。
|
-x UCX_LOCAL_CONN_SAME_DEV=y |
是 |
本节点内是否使用同名网卡建链,可选值为y或n,默认为n。
|
-x UCX_ MAX_RNDV_RAILS=2 |
否 |
使用RNDV多轨。RNDV通道通常用于处理大包场景,为单边通信。
|
-x UCX_MAX_AUX_RAILS=2 |
否 |
使用AUX多轨建链。HUCX在使用RC连接方式初始化时,会使用AUX链互相交换地址并进行RC的建链,AUX链通常使用UD(Unreliable Datagram)连接;大规模业务初始化建链时间较长,建议使用AUX多轨建链,并增加AUX多轨数量,以降低在初始化建链过程中网口故障对业务的影响。
|
-x UCX_AUX_TIMEOUT=3s |
否 |
设置AUX多轨建链超时时间。默认为20s。格式为: -x UCX_AUX_TIMEOUT=<number>[s|us|ms|ns] <number>为大于0的整数。 当集群规模与业务规模较大时,建链时间较长属于正常现象,可根据集群规模与业务规模适当调整该值,以便及时触发容错处理。 |
-x UCX_NET_DEVICES=mlx5_0:1,mlx5_1:1 |
否 |
设置网口的选择范围。默认从全部网口中选择。 |

- 在同一业务进程中,HUCX多网口容错只会在选择的网口范围内进行,不会在未指定的网口中进行切换;当选择的网口数高于设置的多轨数量时,会按照多轨数量进行选择网口(部分网口可能未被选中)。
- 在同一业务进程中,某网口出现故障后,业务流量会被自动切换到其他可用网口;故障网口恢复后,当前业务不会再次选择曾故障网口;新业务进程不受此影响。
- 当业务进行中某网口出现故障,无其他可用网口可供切换时,业务仍然报错退出。
命令示例如下:
mpirun -np 64 -N 32 --hostfile hf -x UCX_TLS=rc_f -x UCX_MAX_EAGER_RAILS=2 -x UCX_LOCAL_CONN_SAME_DEV=y -x UCX_MAX_AUX_RAILS=2 -x UCX_AUX_TIMEOUT=3s osu_bcast