我要评分文档获取效率文档正确性内容完整性文档易理解0/200提交在线提单论坛求助 FAQ 问题知识库检索时插入大量文本或者大并发调用embedding模型时NPU显存持续增加。 回答服务启动时配置MAX_BATCH_TOKENS环境变量进行最大token限制,具体请参见GitHub网站。容器启动时可通过配置环境变量-e CLEAN_NPU_CACHE=True,使能每次推理后清理NPU缓存,注意开启该功能可能会影响推理性能。