机密虚拟机直通MX C500推理测试

环境要求

表1 硬件要求
项目	说明
CPU	鲲鹏920 7270Z处理器鲲鹏920 7260Y处理器鲲鹏920 7265X处理器
GPU	MetaX C500

表2 操作系统要求
项目	版本
Host OS	openEuler 24.03 LTS SP1 openEuler 24.03 LTS SP2 openEuler 24.03 LTS SP3

安装推理环境

获取虚拟机镜像（目前只支持openEuler 24.03 LTS SP1镜像）。

wget https://repo.openeuler.org/openEuler-24.03-LTS-SP1/virtual_machine_img/aarch64/openEuler-24.03-LTS-SP1-aarch64.qcow2.xz
xz -d openEuler-24.03-LTS-SP1-aarch64.qcow2.xz

机密虚拟机内安装沐曦GPU卡驱动。
1. 以安装metax-driver-mxc500-2.32.0.6-rpm-aarch64.run本地部署为例，登录沐曦开发者镜像资源中心网页，此网站需要注册账号。
2. 在部署形式选择本地部署，在右侧配套资源基础信息一栏中选择硬件信息（曦云C500系列）、系统及兼容信息（linux/aarch64/KylinV10SP2）、解决方案版本（2.32.0.x（2025年04月）），如下图1 机密虚拟机内安装沐曦GPU卡驱动所示。
3. 在安装步骤中获取相应安装命令，再使用获取的安装命令进行安装。
图1 机密虚拟机内安装沐曦GPU卡驱动
虚拟机内安装Docker推理环境。
1. 以安装vllm-metax:0.11.0-maca.ai3.3.0.11-torch2.6-py312-kylin2309a-arm64为例，登录沐曦开发者镜像资源中心网页，此网站需要注册账号。
2. 在左侧分类一栏选择AI模块，然后选择相应的推理框架（vLLM【0.10.2版本及以上】）、架构（arm64）、操作系统（kylin）和Python版本（3.12），如下图2 虚拟机内安装Docker推理环境所示。
3. 单击docker pull命令复制按钮获取docker pull命令，再使用获取的docker命令拉取镜像。
图2 虚拟机内安装Docker推理环境

使用vllm docker镜像进行推理测试

启动Docker镜像。

docker run -it --mount type=bind,source=/home,target=/workspace/mnt,readonly=true --device=/dev/mxcd --device=/dev/dri --group-add video e6ca53da420b /bin/bash

在Docker内执行Benchmark测试。

vllm bench throughput --dataset /workspace/mnt/ShareGPT_V3_unfiltered_cleaned_split.json --model /workspace/mnt/Llama-3-8B-Instruct-HF/ -tp 1

--mount type=bind，source=/home，target=/workspace/mnt，readonly=true这些命令参数用于将虚拟机内的目录绑定挂载到容器内的指定路径，这里指定的source=/home目录为虚拟机内的模型和数据的目录（模型和数据自行请下载）。该案例中数据目录和模型目录分别“/home/ShareGPT_V3_unfiltered_cleaned_split.json”和“/home/Llama-3-8B-Instruct-HF”。
e6ca53da420b为docker镜像的段ID，通过docker images命令获取。

父主题： 最佳实践（GPU直通）