我要评分

文档获取效率

文档正确性

内容完整性

文档易理解

在线提单

论坛求助

环境要求

提供调优对象已验证的软硬件环境信息。

硬件要求

表1 硬件要求
项目	说明
推理服务器	Atlas 800I A2推理服务器
CPU	鲲鹏920 7265/5250处理器 * 4
NPU	昇腾910B4 * 8

操作系统要求

表2 操作系统要求
项目	版本	说明
Ubuntu	24.04或22.04	经过验证可用的Linux版本。
openEuler	22.03 LTS SP4	经过验证可用的Linux版本，部分优化选项依赖openEuler 22.03 LTS SP4版本。

软件要求

表3 软件要求
项目	版本	说明	获取地址
驱动与固件	>=24.0	NPU驱动与固件。	获取链接
CANN	8.1.RC1	CANN（Compute Architecture for Neural Networks）是昇腾针对AI场景推出的异构计算架构，提供了功能强大、适配性好、可自定义开发的AI异构计算架构。	获取链接
Ascend Extension for PyTorch（即torch_npu插件）	2.5.1.dev20250320及以上版本	torch_npu插件whl包，使昇腾NPU可以支持PyTorch框架。	获取链接
Ascend Extension for PyTorch（即torch_npu插件）	2.5.1及以上版本	PyTorch框架whl包。	获取链接
vLLM	0.7.3	专为大语言模型推理加速而设计的框架。	获取链接
vLLM-Ascend	0.7.3	实现vLLM在Ascend NPU上的无缝运行。	获取链接
MindIE Turbo	2.1.RC2	MindIE Turbo是由华为在昇腾硬件上开发的LLM推理引擎加速插件库，包含了自研的大语言模型优化算法和与推理引擎框架相关的优化。MindIE Turbo会提供一系列模块化与插件化的接口，使能三方推理引擎接入并加速。	获取链接
Python	3.10.x/3.11.x	Python是一种解释型、面向对象的编程语言。	使用conda安装指定版本
Docker	>=24.x.x	Docker是一组平台即服务（PaaS）的产品。它基于操作系统层级的虚拟化技术，将软件与其依赖项打包为容器。	获取链接
GCC	>=10.3.1	GCC（GNU Compiler Collection，GNU编译器套件）是由GNU开发的编程语言编译器。GNU编译器套件包括C、C++、 Objective-C、 Fortran、Java、Ada和Go语言前端，也包括了这些语言的库（如libstdc++，libgcj等。）	直接使用yum或apt安装即可
msModelSlim	-	昇腾模型压缩工具，一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速，包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能，昇腾AI模型开发用户可以灵活调用Python API接口，对模型进行性能调优，并支持导出不同格式模型，在昇腾AI处理器上运行。	获取链接
DeepSeek-R1-Distill-Llama-70B	-	运行使用的大模型文件。	获取链接

安装Ascend NPU固件/驱动程序和CANN以及后续软件包的过程中需要在线下载多个资源，包括Python源码、编译工具以及各种依赖等，该过程无法离线构建，请保证环境的网络连接。