环境要求
提供部署对象已验证的软硬件环境信息。
硬件要求
项目 |
说明 |
---|---|
推理服务器 |
Atlas 800I A2推理服务器 |
CPU |
鲲鹏920 7265/5250处理器 |
NPU |
昇腾910B4 * 8 |
操作系统要求
项目 |
版本 |
说明 |
---|---|---|
Ubuntu |
24.04 or 22.04 |
经过验证可用的Linux版本。 |
openEuler |
22.03 LTS SP4 |
经过验证可用的Linux版本,部分优化选项依赖openEuler 22.03 LTS SP4版本。 |
软件要求
项目 |
版本 |
说明 |
获取地址 |
---|---|---|---|
驱动与固件 |
>=24.0 |
NPU驱动与固件。 |
|
CANN |
8.1.RC1 |
CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,提供了功能强大、适配性好、可自定义开发的AI异构计算架构。 |
|
Ascend Extension for PyTorch |
2.5.1.dev20250320及以上版本 |
Torch_NPU插件whl包,使昇腾NPU可以支持PyTorch框架。 |
|
2.5.1及以上版本 |
PyTorch框架whl包。 |
||
vLLM |
0.7.3 |
专为大语言模型推理加速而设计的框架。 |
|
vLLM-Ascend |
0.7.3 |
实现vLLM在Ascend NPU上的无缝运行。 |
|
MindIE Turbo |
2.0.RC1 |
MindIE Turbo是由华为在昇腾硬件上开发的LLM推理引擎加速插件库,包含了自研的大语言模型优化算法和与推理引擎框架相关的优化。MindIE Turbo会提供一系列模块化与插件化的接口,使能三方推理引擎接入并加速。 |
|
Python |
3.10.x/3.11.x |
- |
- |
Docker |
>=24.x.x |
- |
- |
GCC |
>=10.3.1 |
- |
- |
DeepSeek-R1-Distill-Llama-70B |
- |
运行使用的大模型文件。 |

安装Ascend NPU固件/驱动程序和CANN以及后续软件包的过程中需要在线下载多个资源,包括Python源码、编译工具以及各种依赖等,该过程无法离线构建,请保证环境的网络连接。