开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

服务器自定义基线对比诊断

支持用户自定义基线文件作为服务器性能基准,利用鲲鹏健康检测工具采集服务器实际运行数据,通过基线对比完成服务器诊断与状态判断。

图1 示例流程图

前提条件

以鲲鹏健康检测工具安装路径“/home/devkit-kspect-x.x.x-Linux-aarch64”为例。

操作步骤

  1. 进入工具目录。
    cd /home/devkit-kspect-x.x.x-Linux-aarch64
  2. 查看基线模板文件。
    ll documents

    返回信息如下:

    total 32
    -rw-------. 1 root root 12519 Feb 24 20:04 base.xlsx
    -rw-------. 1 root root  9005 Feb 24 20:04 collect_commands.txt
    -rw-------. 1 root root   458 Feb 24 20:04 server_config.ini
  3. 编辑基线文件。

    可使用Excel编辑base.xlsx文件,依据base.xlsx文件中的使用说明编写基线文件,以下为灵衢(UB)相关的基线文件内容示例:

    表格内容请根据用户需求填写,未填写的影响和修改方法在对比报告不一致时将以“--”显示。

    路径

    基线值

    采集项

    影响

    修改方法

    bios->BIOS detail Info->LPI

    Disabled

    KVCache 性能-CPU PM Contrl

    LPI 优化功耗管理与资源分配,关闭LPI可以提升CPU性能

      

    UB->KVCache Info->Enable Urma

    TRUE

    KVCache 性能-enable_urma

    datasystem worker组件间通过URMA的API互拉数据

      

    UB->KVCache Info->Enable Rdma

    TRUE

    KVCache 性能-enable_rdma

         

    UB->KVCache Info->Urma Mode

    UB

    KVCache 性能-urma_mode

    datasystem worker组件间通过URMA使用UB互拉数据,可以提升KVCache跨节点数据互拉的性能

      

    UB->KVCache Info->Enable Worker Worker Batch Get

    TRUE

    KVCache 性能-enable_worker_worker_batch_get

    datasystem worker组件间批量互拉数据,可以提升KVCache跨节点数据互拉的性能

      

    memory->OS Memory Info->Automatic NUMA Balancing

    Disabled

    UBS Comm-numa平衡

    必须关闭numa平衡,避免因numa平衡影响UB通信

      

    UB->UBSVirt Info->Pod Cpu Config

    [50,]m

    UBSVirt容器网络-cpu基线

    推荐cpu>=50m,影响dp容器性能、稳定性

      

    UB->UBSVirt Info->Pod Memory Config

    [50,]Mi

    UBSVirt容器网络-内存基线

    推荐memory>=50Mi或空,影响dp容器性能、稳定性

      

    UB->UBSVirt Info->Dp Pod Status

    running

    UBSVirt容器网络-dp容器状态

    dp容器状态,影响dp功能

      

    UB->UBSVirt Info->Dp Privileged

    true

    UBSVirt容器网络-dp privileged

    dp特权容器,影响dp功能

      

    UB->UBSE Info->UBSE Communication Mode

    urma

    UBSE-cluster.ipList

    若配置不正确,则影响容器内urma通信的可用性

      

    UB->UBSE Info->Cert Use

    FALSE

    UBSE-cert.use

    跨节点通信是否使用证书

      

    UB->UBSE Info->Start Status

    Success

    UBSE-UBSE status

    若UBSE启动失败,影响容器拉起和bonding下发

      

    UB->URMA Info->Urma Device Count

    754

    URMA-urma_admin show

    如果设备加载失败或加载不全,导致urma bonding设备无法正常聚合,影响基本功能使用

      

    bios->BIOS detail Info->Power Policy

    Performance

    URMA中断性能,UBS Comm-BIOS配置

    如果不开启性能模式,中断发包性能会从us级别劣化成ms级别

      

    bios->BIOS detail Info->HiBoost

    Enabled

    URMA中断性能,UBS Comm-BIOS配置

    如果不开启性能模式,中断发包性能会从us级别劣化成ms级别

      

    bios->BIOS detail Info->HiBoost Turbo+ Profile

    Auto

    URMA中断性能,UBS Comm-BIOS配置

    如果不开启性能模式,中断发包性能会从us级别劣化成ms级别

      

    bios->BIOS detail Info->SMT2

    Enabled

    URMA中断性能,UBS Comm-BIOS配置

    如果不开启性能模式,中断发包性能会从us级别劣化成ms级别

      

    memory->OS Memory Info->Transparent Huge Pages

    never

    透明大页开关

    打开THP可能会导致系统的自动页面管理,设置为always后对用户 / 应用完全透明的将4K小页自动合并成2M大页,提高TLB命中率;缺点是存在背景CPU底噪,收益不稳定,透明大页不能保证总是分配到2M大页,尤其是系统运行时间较长碎片较多时

      

    memory->OS Memory Info->Automatic NUMA Balancing

    Disabled

    numa_balancing

    对于业务容器已经绑定了NUMA,且单NUMA内存满足业务诉求,同时追求时延性能场景建议关闭该特性,以避免后台扫描的底噪开销

      

    UB->UBM Info->SlotId

    [1,4]

    UBM-slotid

    影响管控面整体配置下发

      

    UB->UBM Info->Scene

    1d4n2p

    UBM-scene

    影响管控面整体配置下发

      

    UB->UBM Info->MAMI Status

    Success

    UBM-MAMI运行状态

    影响UBM启动

      

    UB->UBM Info->LCNE UserId

    \d+

    UBM-用户/用户组

    影响UBM启动

      

    UB->UBM Info->LCNE Running Status

    .*running.*

    UBM-LCNE启动状态

         

    UB->UB BMC Info->IsUBFabricMode

    TRUE

    BMC-集群模式配置

    当前节点是否为UB组集群,影响UB通信

      

    UB->UB BMC Info->IsUBControlNode

    TRUE

    BMC-管理节点配置

    当前节点是否为管理/代理节点,影响UB通信

      

    UB->UB BMC Info->TopologyType

    1

    BMC-组网模式配置

    当前组网区分1D/2D组网模式,影响UB通信

      

    UB->UB BMC Info->UBMDeployMode

    1

    BMC-管控模式配置

    当前节点为带内/带外管控模式配置,影响UB通信

      
  4. 将编辑好的基线文件上传至服务器的/home下。
  5. 采集一份新报告并进行基线比对。
    ./kspect report --diff_base /home/base.xlsx

    返回信息如下:

    BMC、BIOS、Storage、UB模块部分数据依赖BMC登录信息,请确认是否输入(y/N):y
    请输入 BMC IP 地址:xx.xx.xx.xx
    BMC 用户名:Administrator
    BMC 密码:
     
    采集中,请稍等...
    采集完成,总用时: 8.29 秒。
     
    JSON文件/home/devkit-kspect-x.x.x-Linux-aarch64/output/kspect-report-20260225-142117/kspect-json-20260225-142117.json已成功生成。
    CSV文件/home/devkit-kspect-x.x.x-Linux-aarch64/output/kspect-report-20260225-142117/kspect-report-20260225-142117.csv已成功生成。
    HTML文件/home/devkit-kspect-x.x.x-Linux-aarch64/output/kspect-report-20260225-142117/kspect-report-20260225-142117.html已成功生成。
    Note:
        [current]报告为/home/devkit-kspect-x.x.x-Linux-aarch64/output/kspect-report-20260225-142117/kspect-json-20260225-142117.json
     
        [base]报告为/home/base.xlsx
     
    BIOS
    =========================================================================================================================================================== 
    BIOS detail Info
    ─────────────────────────────────────────────────────────────────────────────  key                       name                              current        base           diff    impact    modification method
    ─────────────────────────────────────────────────────────────────────────────
      LPI                       KVCache 性能-CPU PM Contrl        Disabled       Disabled       一致    --        --
      Power Policy              URMA中断性能,UBS Comm-BIOS配置    Performance    Performance    一致    --        --
      HiBoost                   URMA中断性能,UBS Comm-BIOS配置    Enabled        Enabled        一致    --        --
      HiBoost Turbo+ Profile    URMA中断性能,UBS Comm-BIOS配置    Auto           Auto           一致    --        --
      SMT2                      URMA中断性能,UBS Comm-BIOS配置    Enabled        Enabled        一致    --        --
    ───────────────────────────────────────────────────────────────────────────── 
     
    Memory
    ============================================================================================================================================================ 
    OS Memory Info
    ─────────────────────────────────────────────────────────────────────────────
      key                         name              current     base        diff    impact    modification method
    ─────────────────────────────────────────────────────────────────────────────
      Automatic NUMA Balancing    numa_balancing    Disabled    Disabled    一致    --        --
      Transparent Huge Pages      透明大页开关      never       never       一致    --        --
    ─────────────────────────────────────────────────────────────────────────────
     
     
    UB
    ===========================================================================================================================================================
     
    KVCache Info
    ─────────────────────────────────────────────────────────────────────────────
      key                               name                                           current    base    diff      impact                                                modification method
    ─────────────────────────────────────────────────────────────────────────────
      Enable Urma                       KVCache 性能-enable_urma                       --         True    不一致    datasystem worker组件间通过URMA的API互拉数据          --
      Enable Rdma                       KVCache 性能-enable_rdma                       --         True    不一致    --                                                    --
      Urma Mode                         KVCache 性能-urma_mode                         --         UB      不一致    datasystem worker组件间通过URMA使用UB互拉数据,可     --
                                                                                                                    以提升KVCache跨节点数据互拉的性能
      Enable Worker Worker Batch Get    KVCache 性能-enable_worker_worker_batch_get    --         True    不一致    datasystem worker组件间批量互拉数据,可以提升KVCac    --
                                                                                                                    he跨节点数据互拉的性能
    ─────────────────────────────────────────────────────────────────────────────
     
     
    UBSE Info
    ─────────────────────────────────────────────────────────────────────────────
      key                        name                   current    base       diff      impact                                       modification method
    ─────────────────────────────────────────────────────────────────────────────
      UBSE Communication Mode    UBSE-cluster.ipList    urma       urma       一致      --                                           --
      Cert Use                   UBSE-cert.use          false      False      一致      --                                           --
      Start Status               UBSE-UBSE status       Failed     Success    不一致    若UBSE启动失败,影响容器拉起和bonding下发    --
    ─────────────────────────────────────────────────────────────────────────────
     
     
    URMA Info
    ─────────────────────────────────────────────────────────────────────────────
      key                  name                    current    base    diff      impact                                                modification method
    ─────────────────────────────────────────────────────────────────────────────
      Urma Device Count    URMA-urma_admin show    --         754     不一致    如果设备加载失败或加载不全,导致urma bonding设备无    --
                                                                                法正常聚合,影响基本功能使用
    ─────────────────────────────────────────────────────────────────────────────
     
     
    UBM Info
    ─────────────────────────────────────────────────────────────────────────────
      key                    name                current             base           diff      impact                    modification method
    ─────────────────────────────────────────────────────────────────────────────
      SlotId                 UBM-slotid          1                   [1,4]          一致      --                        --
      Scene                  UBM-scene           1d8n2p              1d4n2p         不一致    影响管控面整体配置下发    --
      MAMI Status            UBM-MAMI运行状态    Success             Success        一致      --                        --
      LCNE UserId            UBM-用户/用户组     1000                \d+            一致      --                        --
      LCNE Running Status    UBM-LCNE启动状态    active (running)    .*running.*    一致      --                        --
    ─────────────────────────────────────────────────────────────────────────────
     
     
    UB BMC Info
    ─────────────────────────────────────────────────────────────────────────────
      key                name                current    base    diff      impact                                         modification method
    ─────────────────────────────────────────────────────────────────────────────
      IsUBFabricMode     BMC-集群模式配置    --         True    不一致    当前节点是否为UB组集群,影响UB通信             --
      IsUBControlNode    BMC-管理节点配置    --         True    不一致    当前节点是否为管理/代理节点,影响UB通信        --
      TopologyType       BMC-组网模式配置    --         1       不一致    当前组网区分1D/2D组网模式,影响UB通信          --
      UBMDeployMode      BMC-管控模式配置    --         1       不一致    当前节点为带内/带外管控模式配置,影响UB通信    --
    ───────────────────────────────────────────────────────────────────────────── 
     
    UBSVirt Info
    ─────────────────────────────────────────────────────────────────────────────
      key                  name                             current        base       diff      impact                    modification method
    ─────────────────────────────────────────────────────────────────────────────
      Pod Cpu Config       UBSVirt容器网络-cpu基线          50m            [50,]m     一致      --                        --
      Pod Memory Config    UBSVirt容器网络-内存基线         50Mi           [50,]Mi    一致      --                        --
      Dp Pod Status        UBSVirt容器网络-dp容器状态       [Running]*2    running    不一致    dp容器状态,影响dp功能    --
      Dp Privileged        UBSVirt容器网络-dp privileged    true           true       一致      --                        --
    ─────────────────────────────────────────────────────────────────────────────
     
     
    JSON文件/home/devkit-kspect-x.x.x-Linux-aarch64/output/kspect-diff-20260225-142117/kspect-diff-20260225-142117.json已成功生成。

    基线比对支持正则及区域([a,b])匹配,区域匹配支持单位,如“[50,]Mib”匹配大于等于50Mib;当结果中的diff为不一致时会展示影响及修改方法。

  6. 根据比对报告中的不一致项,对服务器进行自定义修改。