部署推理服务（DeepSeek-R1-Distill-Qwen-7B）

下载LLM模型。访问HuggingFace网站获取所需模型：
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B：获取链接1
- deepseek-ai/DeepSeek-R1：获取链接2
- deepseek-ai/DeepSeek-V3：获取链接3
以deepseek-ai/DeepSeek-R1-Distill-Qwen-7B为例，下载“Files and versions”下所有文件。

config.json文件需要修改“torch_dtype”类型为“float16”，否则可能导致模型服务化失败。

下载并安装驱动。

根据实际需求通过华为技术网站获取对应版本的驱动软件包。

以Ascend HDK 24.1.0.3为例：

选定软件类型并选择对应驱动软件包。

检查相关依赖是否安装。

执行make -v命令，若能显示make工具的版本，则表示make已安装。

根据表1检查dkms、gcc、linux-header等相关依赖是否存在，若不存在则通过yum安装。

表1 环境依赖检查
操作系统	安装依赖	检查命令	备注
openEuler	dkms	rpm -qa \| grep dkms	各依赖若无法通过yum安装，请自行在华为镜像站获取并安装。若无法yum安装dkms，可先下载dkms-2.6.1-1.el7.noarch.rpm，随后将软件包上传到服务器后，执行rpm -ivh xxx.rpm命令安装RPM包。
	gcc	rpm -qa \| grep gcc
	kernel-headers	rpm -qa \| grep kernel-headers-$(uname -r)
	kernel-devel	rpm -qa \| grep kernel-devel-$(uname -r)

安装驱动（以root用户执行）。

进入软件包所在路径（如“/root”）。
```
cd /root
```
增加软件包可执行权限，x.x.x表示软件包版本，请根据实际情况进行替换。
```
chmod +x root/Ascend-hdk-310p-npu-driver_x.x.x_linux-{arch}.run
```

校验run安装包的一致性和完整性。

./Ascend-hdk-310p-npu-driver_x.x.x_linux-{arch}.run --check

安装驱动，默认安装路径为“/usr/local/Ascend”。
```
./Ascend-hdk-310p-npu-driver_x.x.x_linux-{arch}.run --full
```
安装过程可能会出现如下报错：
- 报错一：出现“Error: HwHiAiUser not exists! Please add HwHiAiUser”。
  
  请执行以下命令解决：
```
sudo groupadd HwHiAiUser
sudo useradd -g HwHiAiUser HwHiAiUser
```
- 报错二：出现“The list of missing tools: ifconfig”。
  
  请执行以下命令解决：
```
yum install net-tools
```

检验驱动是否安装成功。

npu-smi info

出现以下回显信息则加载成功。

+----------------------------------------------------------------------------------------------------+
| npu-smi 24.1.0                            Version: 24.1.0                                      |
+-------------------+-----------------+--------------------------------------------------------------+
| NPU     Name      | Health          | Power(W)          Temp(C)              Hugepages-Usage(page) |
| Chip    Device    | Bus-Id          | AICore(%)         Memory-Usage(MB)                           |
+===================+=================+==============================================================+
| 4       310P3     | OK              | NA                43             0          / 970            |
| 0       0         | 0000:81:00.0    | 0                 861  / 21534                               |
+===================+=================+==============================================================+
| No running processes found in NPU 4                                                                |
+===================+=================+==============================================================+

详细安装步骤请参见《Atlas 中心推理卡 24.1.0 NPU驱动和固件安装指南》。

下载并安装固件（以root用户执行）。
1. 在放置驱动安装包的目录下，获取所需固件软件包：
  
  首次安装按照“驱动->固件”的顺序，覆盖安装或升级则按照“固件->驱动”的顺序。
2. 进入软件包所在路径（如“root”）。
```
cd /root
```
3. 增加软件包可执行权限，x.x.x.x.X表示软件包版本，请根据实际情况进行替换。
```
chmod +x Ascend-hdk-310p-npu-firmware_x.x.x.x.X.run
```
4. 校验run安装包的一致性和完整性。
```
./Ascend-hdk-310p-npu-firmware_x.x.x.x.X.run --check
```
5. 安装固件。
```
./Ascend-hdk-310p-npu-firmware_x.x.x.x.X.run --full
```
6. 检验安装。
```
/usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version 
```
  若与固件软件包版本号一致，则表示安装成功。
  
  更多驱动和固件安装信息请参见《MindIE 安装指南》。
访问昇腾社区并下载镜像文件。下载前需要根据链接中的指导申请下载权限。

启动容器。

docker run -it -d --net=host --shm-size=1000g \
    --privileged \
    --name=qwen-deepseek \
    --device=/dev/davinci_manager \
    --device=/dev/hisi_hdc \
    --device=/dev/devmm_svm \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
    -v /usr/local/sbin:/usr/local/sbin:ro \
    -v /root/DeepSeek-R1-Distill-Qwen-7B:/root/DeepSeek-R1-Distill-Qwen-7B \
llm_models_infer:24.0.0.T0.B092-300I-Duo bash

其中，“--name=qwen-deepseek”、“/root/DeepSeek-R1-Distill-Qwen-7B:/root/DeepSeek-R1-Distill-Qwen-7B”和 “llm_models_infer:24.0.0.T0.B092-300I-Duo”为镜像ID，可根据实际情况进行配置。

进入容器并修改相关配置。
1. 进入容器，qwen-deepseek为容器名称，请根据实际情况替换。
```
docker exec -it qwen-deepseek bash
```
  若不存在以下config.json文件，则进入“/opt/package”目录，执行命令：source install_and_enable_cann.sh（若存在部分库未成功安装，则重新执行该命令，否则将无法启动服务：Failed to init endpoint!）。
2. 修改配置文件（修改以下红框内容）。
```
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
```

运行模型。

配置环境变量。

cd /usr/local/Ascend/mindie/latest/mindie-service
source set_env.sh

运行模型。
```
cd bin
./mindieservice_daemon
```

新建窗口接口测试。“ip”和“port”表示IP地址和端口，请根据实际情况进行替换。

curl -H "Accept: application/json" -H "Content-type: application/json"  -X POST -d '{"model": "qwen","messages": [{"role": "user", "content": "介绍一下杭州"}],"max_tokens": 128}' http://ip:port/v1/chat/completions

父主题： 部署AI服务