鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

UCX使用SP670网卡报错

问题现象描述

ucx_info -d扫描设备时,出现如下报错。

问题原因

报错是因为UCX默认Rx队列深度为4096,而SP670最大深度支持为4095,因此需要调整UCX Rx队列的默认深度值。

解决方法

  1. 为了解决该问题,需要修改一行代码。参考下方的代码完成修改。
    1
    2
    3
    cd /root/rpmbuild/SOURCES/
    tar -zxvf ucx-1.14.1.tar.gz
    vim ucx-1.14.1/src/uct/ib/base/ib_iface.c
    

    修改RX_QUEUE_LEN默认值,从4096修改为4095。

    对该文件进行打包。

    1
    2
    rm -rf ucx-1.14.1.tar.gz
    tar zcvf ucx-1.14.1.tar.gz ucx-1.14.1
    
  2. 编译并构建RPM包。在RPM编译路径下,编译并构建ucx.spec文件,生成RPM包。
    1
    2
    cd /root/rpmbuild/SPECS
    rpmbuild -bb ucx.spec
    

    编译完成后在“/root/rpmbuild/RPMS/aarch64”目录会生成如下图所示的8个RPM包。

  3. 安装RPM包。
    1
    cd /root/rpmbuild/RPMS/aarch64
    
    1
    2
    3
    4
    5
    6
    7
    8
    rpm -ivh ucx-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-cma-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-debuginfo-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-debugsource-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-devel-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-ib-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-rdmacm-1.14.1-1.aarch64.rpm --force
    rpm -ivh ucx-static-1.14.1-1.aarch64.rpm --force