介绍

本文主要向用户介绍鲲鹏服务器上vLLM的开发指南，包含源码构建、安装和基础导入验证场景。

vLLM独创的PagedAttention分页注意力机制将操作系统虚拟内存管理引入KV缓存，结合连续批处理等技术，在Hugging Face Transformers基准测试中实现3~24倍的吞吐量提升，并将显存占用降低40%以上。基于鲲鹏服务器部署vLLM，既能利用其ARM64架构兼容性实现从x86平台的零代码平滑迁移，又可通过鲲鹏DevKit与vLLM-Ascend插件深度适配昇腾AI处理器并实现算子级融合优化。

父主题： 开发指南