返回顶部我要评分获取效率正确性完整性易理解0/200提交关闭在线提单论坛求助 FAQ 问题知识库检索时插入大量文本或者大并发调用Embedding模型时NPU显存持续增加。 回答服务启动时配置“MAX_BATCH_TOKENS”环境变量进行最大token限制,具体请参见GitHub网站。容器启动时可通过配置环境变量“-e CLEAN_NPU_CACHE=True”,使能每次推理后清理NPU缓存,注意开启该功能可能会影响推理性能。