原理
HPC场景当前主要是用Infiniband的高带宽、低时延网络方案,在大规模HPC应用场景下,需要确保Infiniband网卡插入了正确的PCIE插槽上,避免出现因PCIE信号不足导致Infiniband网卡降速的情况,影响应用性能。
验证方法
- 执行以下命令检查Infiniband网卡PCIE ID的一致性,确保集群中每个节点的Infiniband网卡插入了同一位置上的插槽。
lspci |grep -i mellanox
输出结果如图1所示。
图1 结果样例
- 执行以下命令查询PCIE网卡状态,确认网卡状态为“Speed 16GT/s(PCIE 4.0),width x16”或“Speed 8GT/s(PCIE 3.0),width x16”。
lspci -vvv -s 01:00.0
输出结果如图2所示。
图2 结果样例