介绍

本文主要向用户介绍鲲鹏服务器上vLLM的安装指导，包含版本兼容性、安装准备和基础验证方法。

vLLM独创的PagedAttention分页注意力机制将操作系统虚拟内存管理引入KV缓存，结合连续批处理等技术，在Hugging Face Transformers基准测试中实现3~24倍的吞吐量提升，并将显存占用降低40%以上。基于鲲鹏服务器部署vLLM，既能利用其原生ARM64架构兼容性实现从x86平台的零代码平滑迁移，又可通过鲲鹏DevKit与vLLM-Ascend插件深度适配昇腾AI处理器并实现算子级融合优化。

父主题： 安装指南