鲲鹏CPU平台部署
在鲲鹏CPU平台部署,为了保证模型推理性能,推荐表1中指定量化版本的embedding模型,本节以bce-embedding-base_v1模型为例,介绍在鲲鹏CPU平台部署embedding服务的步骤。
模型名称 |
支持语言 |
参数规模 |
最大输入/tokens |
|---|---|---|---|
中文、英文 |
0.28B |
512 |
|
多语言 |
0.57B |
8192 |
|
中文 |
0.32B |
8192 |
- 从huggingface国内镜像网站复制模型名称并搜索,下载对应的Embedding模型。选择GGUF格式的量化版本模型 bce-embedding-base_v1-f16.gguf,下载到本地后上传至服务器 /root/models 目录下。
- 下载已经基于鲲鹏CPU编译适配好的llama.cpp推理框架的docker镜像。
swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng镜像(对应鲲鹏920机器)
swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920B-kunpeng(对应鲲鹏920B机器)
以下以920机器为示例:docker pull swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng
- 运行以下命令,启动llama.cpp镜像并运行Embedding模型推理服务。
docker run \ --cpuset-cpus="0-31" \ # 容器绑核,绑定一个numa上 -v /root/models:/models \ # 挂载模型目录到容器 -p 11133:11133 # 映射容器的服务端口到主机端口 swr.cn-north-4.myhuaweicloud.com/kunpeng-ai/llama.cpp:920-kunpeng \ # 使用已构建好的llama.cpp镜像 --server \ # 启动api服务 -m /models/bce-embedding-base-base_v1-f16.gguf \ # 指定模型路径 --embedding \ --port 11133 \ --threads 32 \ --host 0.0.0.0 \ --ubatch-size 1024 - 从客户端访问embedding服务API,IP地址和端口需修改为对应服务器的IP地址和端口。
curl -X POST http://127.0.0.1:11133/v1/embeddings -H "Content-Type: application/json" -d '{ "model": "bce-embedding-base_v1-FP16.gguf", "input": "Why is the sky blue?" }' - 若能成功返回嵌入向量值,则部署成功。
父主题: Embedding服务部署