开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

部署vLLM-Ascend和MindIE Turbo推理框架

部署vLLM-Ascend和MindIE Turbo推理框架包括安装大语言模型推理加速框架vLLM、实现vLLM在Ascend NPU上无缝运行的vLLM-Ascend和高性能推理引擎MindIE Turbo。

  1. 拉取vLLM仓库安装v0.7.3版本。
    git clone -b v0.7.3 https://github.com/vllm-project/vllm.git
    cd vllm
    pip install -r requirements-build.txt
    VLLM_TARGET_DEVICE=empty pip install -v .
  2. 安装vLLM-Ascend。
    git clone -b v0.7.3-dev https://github.com/vllm-project/vllm-ascend.git
    cd vllm-ascend
    pip install -v .
  3. 请参见软件要求,下载对应版本的MindIE Turbo软件包,并上传到“/home/packages”

  4. 解压并安装MindIE Turbo。
    cd /home/packages
    tar -xvzf Ascend-mindie-turbo_2.0.RC2_py311_linux_aarch64.tar.gz
    cd Ascend-mindie-turbo_2.0.RC2_py311_linux_aarch64
    pip install mindie_turbo-2.0rc2-cp311-cp311-linux_aarch64.whl
  5. 执行如下命令验证是否安装成功。
    pip show mindie_turbo

    如果出现如下示例结果,表示安装成功。

    Version: 2.0rc2
    Summary: MindIE Turbo: An LLM inference acceleration framework featuring extensive plugin collections optimized for Ascend devices.
    ...