鲲鹏CPU平台

为了保证模型bge-reranker-v2-m3-FP16.gguf推理性能，推荐表1中指定量化版本的Rerank模型，本节以bce-embedding-base_v1模型为例，介绍在鲲鹏CPU平台部署Rerank服务的步骤。

表1 推荐Rerank模型说明
模型名称	支持语言	参数规模	下载链接
bce-reranker-base_v1-FP16.gguf	中文、英文、日文、韩文	0.28B	下载链接
gte-multilingual-reranker-base-FP16.gguf	多语言	0.31B	下载链接
bge-reranker-v2-m3-FP16.gguf	多语言	0.57B	下载链接

从huggingface国内镜像网站复制模型名称并搜索，下载对应的Reranker模型。选择GGUF格式的量化版本模型bce-reranker-base_v1-FP16.gguf，下载到本地后上传至服务器“/root/models”目录下。
下载已经基于鲲鹏CPU编译适配好的llama.cpp推理框架的Docker镜像。
- 鲲鹏920处理器：swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng
- 鲲鹏920新型号处理器：swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng
以鲲鹏920处理器为例：
```
docker pull swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng
```

运行以下命令，启动llama.cpp镜像并运行Embedding模型推理服务。

docker run \
    --cpuset-cpus="32-63" \                           # 容器绑核，绑定一个numa上
    -v /root/models:/models \                        # 挂载模型目录到容器
    -p 11133:11133                                   # 映射容器的服务端口到主机端口
    swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng \                # 使用已构建好的llama.cpp镜像
    --server \                                       # 启动api服务
    -m /models/bce-reranker-base_v1-FP16.gguf \ # 指定模型路径
    --reranking \
    --port 11133 \
    --threads 32 \
    --host 0.0.0.0 \
    --ubatch-size 1024

从客户端访问Rerank服务API。IP地址和端口需修改为对应服务器的IP地址和端口。

curl -X POST http://127.0.0.1:11133/v1/rerank -H "Content-Type: application/json" -d '{ 
  "query":"I am from China",
  "documents":["I am from Japan","I am from Korea","I am from America"]
}'

若能成功返回嵌入向量值，则部署成功。

父主题： （可选）部署Rerank服务