介绍
本文档详细介绍了在鲲鹏920处理器+Atlas 800I A2推理服务器上部署vLLM、vLLM-Ascend和MindIE Turbo框架的操作步骤,包括DeepSeek 70B模型的运行和调优方法。
面对AI算力的快速增长和客户对高性能计算的需求,A+K一体机性能竞争力不够,因此需要对A+K推理性能进行优化。当前DeepSeek 70B模型是通过DeepSeek R1蒸馏的LLaMA 70B模型,然后通过vLLM、vLLM-Ascend和MindIE Turbo框架进行运行。
本文提供的调优方法需结合性能分析工具(如perf/profile)的采集数据及调优前后的测试结果,根据硬件实际情况和性能结果叠加不同的优化手段。