环境要求
提供调优对象已验证的软硬件环境信息。
硬件要求
项目 |
说明 |
|---|---|
推理服务器 |
Atlas 800I A2推理服务器 |
CPU |
鲲鹏920 7265/5250处理器 * 4 |
NPU |
昇腾910B4 * 8 |
操作系统要求
项目 |
版本 |
说明 |
|---|---|---|
Ubuntu |
24.04或22.04 |
经过验证可用的Linux版本。 |
openEuler |
22.03 LTS SP4 |
经过验证可用的Linux版本,部分优化选项依赖openEuler 22.03 LTS SP4版本。 |
软件要求
项目 |
版本 |
说明 |
获取地址 |
|---|---|---|---|
驱动与固件 |
>=24.0 |
NPU驱动与固件。 |
|
CANN |
8.1.RC1 |
CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,提供了功能强大、适配性好、可自定义开发的AI异构计算架构。 |
|
Ascend Extension for PyTorch(即torch_npu插件) |
2.5.1.dev20250320及以上版本 |
torch_npu插件whl包,使昇腾NPU可以支持PyTorch框架。 |
|
2.5.1及以上版本 |
PyTorch框架whl包。 |
||
vLLM |
0.7.3 |
专为大语言模型推理加速而设计的框架。 |
|
vLLM-Ascend |
0.7.3 |
实现vLLM在Ascend NPU上的无缝运行。 |
|
MindIE Turbo |
2.1.RC2 |
MindIE Turbo是由华为在昇腾硬件上开发的LLM推理引擎加速插件库,包含了自研的大语言模型优化算法和与推理引擎框架相关的优化。MindIE Turbo会提供一系列模块化与插件化的接口,使能三方推理引擎接入并加速。 |
|
Python |
3.10.x/3.11.x |
Python是一种解释型、面向对象的编程语言。 |
使用conda安装指定版本 |
Docker |
>=24.x.x |
Docker是一组平台即服务(PaaS)的产品。它基于操作系统层级的虚拟化技术,将软件与其依赖项打包为容器。 |
|
GCC |
>=10.3.1 |
GCC(GNU Compiler Collection,GNU编译器套件)是由GNU开发的编程语言编译器。GNU编译器套件包括C、C++、 Objective-C、 Fortran、Java、Ada和Go语言前端,也包括了这些语言的库(如libstdc++,libgcj等。) |
直接使用yum或apt安装即可 |
msModelSlim |
- |
昇腾模型压缩工具,一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速,包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能,昇腾AI模型开发用户可以灵活调用Python API接口,对模型进行性能调优,并支持导出不同格式模型,在昇腾AI处理器上运行。 |
|
DeepSeek-R1-Distill-Llama-70B |
- |
运行使用的大模型文件。 |
安装Ascend NPU固件/驱动程序和CANN以及后续软件包的过程中需要在线下载多个资源,包括Python源码、编译工具以及各种依赖等,该过程无法离线构建,请保证环境的网络连接。