部署推理服务(DeepSeek-R1-Distill-Qwen-7B)
- 下载LLM模型。访问HuggingFace网站获取所需模型:
- 下载并安装驱动。
- 根据实际需求通过华为技术网站获取对应版本的驱动软件包。

以Ascend HDK 24.1.0.3为例:
选定软件类型并选择对应驱动软件包。


- 检查相关依赖是否安装。
- 执行make -v命令,若能显示make工具的版本,则表示make已安装。
- 根据表1检查dkms、gcc、linux-header等相关依赖是否存在,若不存在则通过yum安装。
- 安装驱动(以root用户执行)。
- 进入软件包所在路径(如“/root”)。
cd /root
- 增加软件包可执行权限,x.x.x表示软件包版本,请根据实际情况进行替换。
chmod +x root/Ascend-hdk-310p-npu-driver_x.x.x_linux-{arch}.run - 校验run安装包的一致性和完整性。
./Ascend-hdk-310p-npu-driver_x.x.x_linux-{arch}.run --check - 安装驱动,默认安装路径为“/usr/local/Ascend”。
./Ascend-hdk-310p-npu-driver_x.x.x_linux-{arch}.run --full安装过程可能会出现如下报错:
- 检验驱动是否安装成功。
npu-smi info
出现以下回显信息则加载成功。
+----------------------------------------------------------------------------------------------------+ | npu-smi 24.1.0 Version: 24.1.0 | +-------------------+-----------------+--------------------------------------------------------------+ | NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page) | | Chip Device | Bus-Id | AICore(%) Memory-Usage(MB) | +===================+=================+==============================================================+ | 4 310P3 | OK | NA 43 0 / 970 | | 0 0 | 0000:81:00.0 | 0 861 / 21534 | +===================+=================+==============================================================+ | No running processes found in NPU 4 | +===================+=================+==============================================================+
- 进入软件包所在路径(如“/root”)。
- 根据实际需求通过华为技术网站获取对应版本的驱动软件包。
- 下载并安装固件(以root用户执行)。
- 在放置驱动安装包的目录下,获取所需固件软件包:
首次安装按照“驱动->固件”的顺序,覆盖安装或升级则按照“固件->驱动”的顺序。
- 进入软件包所在路径(如“root”)。
cd /root
- 增加软件包可执行权限,x.x.x.x.X表示软件包版本,请根据实际情况进行替换。
chmod +x Ascend-hdk-310p-npu-firmware_x.x.x.x.X.run
- 校验run安装包的一致性和完整性。
./Ascend-hdk-310p-npu-firmware_x.x.x.x.X.run --check
- 安装固件。
./Ascend-hdk-310p-npu-firmware_x.x.x.x.X.run --full
- 检验安装。
/usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version
若与固件软件包版本号一致,则表示安装成功。
- 在放置驱动安装包的目录下,获取所需固件软件包:
- 访问昇腾社区并下载镜像文件。下载前需要根据链接中的指导申请下载权限。

- 启动容器。
docker run -it -d --net=host --shm-size=1000g \ --privileged \ --name=qwen-deepseek \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \ -v /usr/local/sbin:/usr/local/sbin:ro \ -v /root/DeepSeek-R1-Distill-Qwen-7B:/root/DeepSeek-R1-Distill-Qwen-7B \ llm_models_infer:24.0.0.T0.B092-300I-Duo bash
其中,“--name=qwen-deepseek”、“/root/DeepSeek-R1-Distill-Qwen-7B:/root/DeepSeek-R1-Distill-Qwen-7B”和 “llm_models_infer:24.0.0.T0.B092-300I-Duo”为镜像ID,可根据实际情况进行配置。
- 进入容器并修改相关配置。
- 进入容器,qwen-deepseek为容器名称,请根据实际情况替换。
docker exec -it qwen-deepseek bash
若不存在以下config.json文件,则进入“/opt/package”目录,执行命令:source install_and_enable_cann.sh(若存在部分库未成功安装,则重新执行该命令,否则将无法启动服务:Failed to init endpoint!)。

- 修改配置文件(修改以下红框内容)。
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json



- 进入容器,qwen-deepseek为容器名称,请根据实际情况替换。
- 运行模型。
- 配置环境变量。
cd /usr/local/Ascend/mindie/latest/mindie-service source set_env.sh
- 运行模型。
cd bin ./mindieservice_daemon
- 配置环境变量。
- 新建窗口接口测试。“ip”和“port”表示IP地址和端口,请根据实际情况进行替换。
curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"model": "qwen","messages": [{"role": "user", "content": "介绍一下杭州"}],"max_tokens": 128}' http://ip:port/v1/chat/completions
父主题: 部署AI服务




