开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

部署Embedding服务

为了保证模型推理性能,推荐表1中指定量化版本的Embedding模型,本节以bge-m3-Q8_0模型为例,介绍在鲲鹏CPU平台部署Embedding服务的步骤。

表1 推荐Embedding模型说明

模型名称

支持语言

参数规模

最大输入/tokens

下载链接

bge-m3-q8_0.gguf

多语言

0.57B

8192

下载链接

  1. HF国内镜像网站复制模型名称并搜索,下载对应的Embedding模型。选择GGUF格式的量化版本模型bge-m3-q8_0.gguf,下载完成后上传至服务器。本文后续示例以模型存放于“/root/models”目录为例。
  2. 下载已基于鲲鹏CPU编译和适配的llama.cpp推理框架的Docker镜像。

    以鲲鹏920新型号处理器为例:

    docker pull swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng
  3. 运行以下命令,启动llama.cpp镜像并运行Embedding模型推理服务。
    docker run --name embedding -d\
        --cpuset-cpus="0-31" \
        -v /root/models:/models \
        -p 11133:11133 \
        swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng \
        --api-key kunpeng \
        --server \
        -m /models/bge-m3-q8_0.gguf \
        --embedding \
        --port 11133 \
        --threads 32 \
        --host 0.0.0.0 \
        --ubatch-size 8192
    • /root/models:模型保存目录,请根据实际目录进行修改。
    • --api-key:设置服务API密钥,后续演示以kunpeng为例。
    • --cpuset-cpus="0-31":对Embedding服务进行容器绑核,绑在一个NUMA上。
    • -m /models/bge-m3-q8_0.gguf:用于指定模型路径,注意模型权重文件大小写与实际一致。
  4. 从客户端访问Embedding服务API,IP地址和端口需修改为对应服务器的IP地址和端口。
    curl -X POST http://127.0.0.1:11133/v1/embeddings \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer kunpeng" \
      -d '{
        "model": "bge-m3-q8_0",
        "input": "Why is the sky blue?"
      }'

    若能成功返回嵌入向量值,则部署成功。