开发者
资源
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

源码编译构建

获取vLLM源码,从源码包构建CUDA版本wheel后安装构建产物。

  1. 获取vLLM 0.18.1源码。
    1
    git clone --branch v0.18.1 --depth 1 https://github.com/vllm-project/vllm.git
    
  2. 从源码构建CUDA版本wheel。
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    cd vllm
    export CUDA_HOME=/usr/local/cuda-13.0 
    export PATH=$CUDA_HOME/bin:$PATH
    export LD_LIBRARY_PATH=$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}
    export VLLM_TARGET_DEVICE=cuda 
    export TORCH_CUDA_ARCH_LIST="8.0"
    export CMAKE_CUDA_ARCHITECTURES=80 
    export MAX_JOBS=8 
    export NVCC_THREADS=1 
    export CMAKE_BUILD_PARALLEL_LEVEL=8 
    python3 -m pip wheel --no-build-isolation --no-deps \
      --wheel-dir /tmp/vllm-build/dist .
    
  3. 安装本地构建产物。
    1
    python3 -m pip install --force-reinstall --no-deps /tmp/vllm-build/dist/vllm-0.18.1+cu130-*.whl
    

    构建产物示例如下。

    1
    vllm-0.18.1+cu130-cp311-cp311-linux_aarch64.whl