鲲鹏社区首页
中文
注册
开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

FAQ

问题

知识库检索时插入大量文本或者大并发调用Embedding模型时NPU显存持续增加。

回答

  1. 服务启动时配置“MAX_BATCH_TOKENS”环境变量进行最大token限制,具体请参见GitHub网站
  2. 容器启动时可通过配置环境变量“-e CLEAN_NPU_CACHE=True”,使能每次推理后清理NPU缓存,注意开启该功能可能会影响推理性能。