鲲鹏社区首页
中文
注册
开发者
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

鲲鹏CPU平台部署

在鲲鹏CPU平台部署,为了保证模型推理性能,推荐表1中指定量化版本的rerank模型,本节以bce-embedding-base_v1模型为例,介绍在鲲鹏CPU平台部署embedding服务的步骤。

表1

模型名称

支持语言

参数规模

下载链接

bce-reranker-base_v1-FP16.gguf

中文、英文、日文、韩文

0.28B

  

gte-multilingual-reranker-base-FP16.gguf

多语言

0.31B

  

bge-reranker-v2-m3-FP16.gguf

多语言

0.57B

  
  1. huggingface国内镜像网站复制模型名称并搜索,下载对应的reranker模型。选择GGUF格式的量化版本模型 bce-reranker-base_v1-FP16.gguf,下载到本地后上传至服务器 /root/models 目录下。
  2. 下载已经基于鲲鹏CPU编译适配好的llama.cpp推理框架的docker镜像。

    swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng镜像(对应鲲鹏920机器)

    swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng(对应鲲鹏920B机器)

    以下以920机器为示例:
    docker pull swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng
  3. 运行以下命令,启动llama.cpp镜像并运行Embedding模型推理服务。
    docker run \
        --cpuset-cpus="32-63" \                           # 容器绑核,绑定一个numa上
        -v /root/models:/models \                        # 挂载模型目录到容器
        -p 11133:11133                                   # 映射容器的服务端口到主机端口
        swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng \                # 使用已构建好的llama.cpp镜像
        --server \                                       # 启动api服务
        -m /models/bce-reranker-base_v1-FP16.gguf \ # 指定模型路径
        --reranking \
        --port 11133 \
        --threads 32 \
        --host 0.0.0.0 \
        --ubatch-size 1024
  4. 从客户端访问rerank服务API,IP地址和端口需修改为对应服务器的IP地址和端口。
    curl -X POST http://127.0.0.1:11133/v1/rerank -H "Content-Type: application/json" -d '{ 
      "query":"I am from China",
      "documents":["I am from Japan","I am from Korea","I am from America"]
    }'
  5. 若能成功返回嵌入向量值,则部署成功。