鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

FAQ

问题

知识库检索时插入大量文本或者大并发调用embedding模型时NPU显存持续增加。

回答

  1. 服务启动时配置MAX_BATCH_TOKENS环境变量进行最大token限制,具体请参见GitHub网站
  2. 容器启动时可通过配置环境变量-e CLEAN_NPU_CACHE=True,使能每次推理后清理NPU缓存,注意开启该功能可能会影响推理性能。