开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

机密虚拟机直通MX C500推理测试

环境要求

本案例验证的环境如表1 硬件要求表2 操作系统要求所示。

表1 硬件要求

项目

说明

CPU

鲲鹏920 7270Z处理器

鲲鹏920 7260Y处理器

鲲鹏920 7265X处理器

GPU

MetaX C500

表2 操作系统要求

项目

版本

Host OS

openEuler 24.03 LTS SP1

openEuler 24.03 LTS SP2

openEuler 24.03 LTS SP3

安装推理环境

  1. 获取虚拟机镜像(目前只支持openEuler 24.03 LTS SP1镜像)。
    wget https://repo.openeuler.org/openEuler-24.03-LTS-SP1/virtual_machine_img/aarch64/openEuler-24.03-LTS-SP1-aarch64.qcow2.xz
    xz -d openEuler-24.03-LTS-SP1-aarch64.qcow2.xz
  2. 机密虚拟机内安装沐曦GPU卡驱动。
    1. 以安装metax-driver-mxc500-2.32.0.6-rpm-aarch64.run本地部署为例,登录沐曦开发者镜像资源中心网页,此网站需要注册账号。
    2. 在部署形式选择本地部署,在右侧配套资源基础信息一栏中选择硬件信息(曦云C500系列)、系统及兼容信息(linux/aarch64/KylinV10SP2)解决方案版本(2.32.0.x(2025年04月)),如下图1 机密虚拟机内安装沐曦GPU卡驱动所示。
    3. 安装步骤中获取相应安装命令,再使用获取的安装命令进行安装。
    图1 机密虚拟机内安装沐曦GPU卡驱动
  3. 虚拟机内安装Docker推理环境。
    1. 以安装vllm-metax:0.11.0-maca.ai3.3.0.11-torch2.6-py312-kylin2309a-arm64为例,登录沐曦开发者镜像资源中心网页,此网站需要注册账号。
    2. 在左侧分类一栏选择AI模块,然后选择相应的推理框架(vLLM【0.10.2版本及以上】)、架构(arm64)、操作系统(kylin)和Python版本(3.12),如下图2 虚拟机内安装Docker推理环境所示。
    3. 单击docker pull命令复制按钮获取docker pull命令,再使用获取的docker命令拉取镜像。
    图2 虚拟机内安装Docker推理环境

使用vllm docker镜像进行推理测试

  1. 启动Docker镜像。
    docker run -it --mount type=bind,source=/home,target=/workspace/mnt,readonly=true --device=/dev/mxcd --device=/dev/dri --group-add video e6ca53da420b /bin/bash
  2. 在Docker内执行Benchmark测试。
    vllm bench throughput --dataset /workspace/mnt/ShareGPT_V3_unfiltered_cleaned_split.json --model /workspace/mnt/Llama-3-8B-Instruct-HF/ -tp 1
  • --mount type=bind,source=/home,target=/workspace/mnt,readonly=true这些命令参数用于将虚拟机内的目录绑定挂载到容器内的指定路径,这里指定的source=/home目录为虚拟机内的模型和数据的目录(模型和数据自行请下载)。该案例中数据目录和模型目录分别“/home/ShareGPT_V3_unfiltered_cleaned_split.json”“/home/Llama-3-8B-Instruct-HF”
  • e6ca53da420b为docker镜像的段ID,通过docker images命令获取。