我要评分

文档获取效率

文档正确性

内容完整性

文档易理解

在线提单

论坛求助

FAQ

问题

知识库检索时插入大量文本或者大并发调用embedding模型时NPU显存持续增加。

回答

服务启动时配置MAX_BATCH_TOKENS环境变量进行最大token限制，具体请参见GitHub网站。
容器启动时可通过配置环境变量-e CLEAN_NPU_CACHE=True，使能每次推理后清理NPU缓存，注意开启该功能可能会影响推理性能。