部署vLLM-Ascend和MindIE Turbo推理框架
部署vLLM-Ascend和MindIE Turbo推理框架包括安装大语言模型推理加速框架vLLM、实现vLLM在Ascend NPU上无缝运行的vLLM-Ascend和高性能推理引擎MindIE Turbo。
- 拉取vLLM仓库安装v0.7.3版本。
git clone -b v0.7.3 https://github.com/vllm-project/vllm.git cd vllm pip install -r requirements-build.txt VLLM_TARGET_DEVICE=empty pip install -v .
- 安装vLLM-Ascend。
git clone -b v0.7.3-dev https://github.com/vllm-project/vllm-ascend.git cd vllm-ascend pip install -v .
- 请参见软件要求,下载对应版本的MindIE Turbo软件包,并上传到“/home/packages”。

- 解压并安装MindIE Turbo。
cd /home/packages tar -xvzf Ascend-mindie-turbo_2.0.RC2_py311_linux_aarch64.tar.gz cd Ascend-mindie-turbo_2.0.RC2_py311_linux_aarch64 pip install mindie_turbo-2.0rc2-cp311-cp311-linux_aarch64.whl
- 执行如下命令验证是否安装成功。
pip show mindie_turbo
如果出现如下示例结果,表示安装成功。
Version: 2.0rc2 Summary: MindIE Turbo: An LLM inference acceleration framework featuring extensive plugin collections optimized for Ascend devices. ...