部署Embedding服务

为了保证模型推理性能，推荐表1中指定量化版本的Embedding模型，本节以bge-m3-Q8_0模型为例，介绍在鲲鹏CPU平台部署Embedding服务的步骤。

表1 推荐Embedding模型说明
模型名称	支持语言	参数规模	最大输入/tokens	下载链接
bge-m3-q8_0.gguf	多语言	0.57B	8192	下载链接

从HF国内镜像网站复制模型名称并搜索，下载对应的Embedding模型。选择GGUF格式的量化版本模型bge-m3-q8_0.gguf，下载完成后上传至服务器。本文后续示例以模型存放于“/root/models”目录为例。
下载已基于鲲鹏CPU编译和适配的llama.cpp推理框架的Docker镜像。
以鲲鹏920新型号处理器为例：
```
docker pull swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng
```
运行以下命令，启动llama.cpp镜像并运行Embedding模型推理服务。
```
docker run --name embedding -d\
    --cpuset-cpus="0-31" \
    -v /root/models:/models \
    -p 11133:11133 \
    swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng \
    --api-key kunpeng \
    --server \
    -m /models/bge-m3-q8_0.gguf \
    --embedding \
    --port 11133 \
    --threads 32 \
    --host 0.0.0.0 \
    --ubatch-size 8192
```
- /root/models：模型保存目录，请根据实际目录进行修改。
- --api-key：设置服务API密钥，后续演示以kunpeng为例。
- --cpuset-cpus="0-31"：对Embedding服务进行容器绑核，绑在一个NUMA上。
- -m /models/bge-m3-q8_0.gguf：用于指定模型路径，注意模型权重文件大小写与实际一致。

从客户端访问Embedding服务API，IP地址和端口需修改为对应服务器的IP地址和端口。

curl -X POST http://127.0.0.1:11133/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer kunpeng" \
  -d '{
    "model": "bge-m3-q8_0",
    "input": "Why is the sky blue?"
  }'

若能成功返回嵌入向量值，则部署成功。

父主题： 部署AI服务