机密虚拟机直通MX C500推理测试
环境要求
安装推理环境
- 获取虚拟机镜像(目前只支持openEuler 24.03 LTS SP1镜像)。
wget https://repo.openeuler.org/openEuler-24.03-LTS-SP1/virtual_machine_img/aarch64/openEuler-24.03-LTS-SP1-aarch64.qcow2.xz xz -d openEuler-24.03-LTS-SP1-aarch64.qcow2.xz
- 机密虚拟机内安装沐曦GPU卡驱动。
- 以安装metax-driver-mxc500-2.32.0.6-rpm-aarch64.run本地部署为例,登录沐曦开发者镜像资源中心网页,此网站需要注册账号。
- 在部署形式选择本地部署,在右侧配套资源基础信息一栏中选择硬件信息(曦云C500系列)、系统及兼容信息(linux/aarch64/KylinV10SP2)、解决方案版本(2.32.0.x(2025年04月)),如下图1 机密虚拟机内安装沐曦GPU卡驱动所示。
- 在安装步骤中获取相应安装命令,再使用获取的安装命令进行安装。
- 虚拟机内安装Docker推理环境。
- 以安装vllm-metax:0.11.0-maca.ai3.3.0.11-torch2.6-py312-kylin2309a-arm64为例,登录沐曦开发者镜像资源中心网页,此网站需要注册账号。
- 在左侧分类一栏选择AI模块,然后选择相应的推理框架(vLLM【0.10.2版本及以上】)、架构(arm64)、操作系统(kylin)和Python版本(3.12),如下图2 虚拟机内安装Docker推理环境所示。
- 单击docker pull命令复制按钮获取docker pull命令,再使用获取的docker命令拉取镜像。
使用vllm docker镜像进行推理测试
- 启动Docker镜像。
docker run -it --mount type=bind,source=/home,target=/workspace/mnt,readonly=true --device=/dev/mxcd --device=/dev/dri --group-add video e6ca53da420b /bin/bash
- 在Docker内执行Benchmark测试。
vllm bench throughput --dataset /workspace/mnt/ShareGPT_V3_unfiltered_cleaned_split.json --model /workspace/mnt/Llama-3-8B-Instruct-HF/ -tp 1
- --mount type=bind,source=/home,target=/workspace/mnt,readonly=true这些命令参数用于将虚拟机内的目录绑定挂载到容器内的指定路径,这里指定的source=/home目录为虚拟机内的模型和数据的目录(模型和数据自行请下载)。该案例中数据目录和模型目录分别“/home/ShareGPT_V3_unfiltered_cleaned_split.json”和“/home/Llama-3-8B-Instruct-HF”。
- e6ca53da420b为docker镜像的段ID,通过docker images命令获取。
父主题: 最佳实践(GPU直通)

