企业知识库管理

知识库功能将RAG管线上的各环节可视化,提供了一套简单易用的用户界面来方便应用构建者管理个人或者团队的知识库,并能够快速集成至AI应用中。

创建知识库

创建知识库并上传文档大致分为以下步骤:

  1. 导入文本数据。

    这里可以选择导入已有的文本,支持的文件格式如下图所示。

    本次导入的文档是PDF格式,内容是鲲鹏BoostKit搜推广使能套件-鲲鹏推理加速套件-特性文档。

  2. 指定分段模式。

    该阶段是内容的预处理与数据结构化过程,长文本将会被划分为多个内容分段。您可以在此环节预览文本的分段效果。

  3. 设置Embedding模型。

    选择上文配置好的Embedding模型。

  4. 设定索引方法与检索设置。

    知识库在接收到用户查询问题后,按照预设的检索方式在已有的文档内查找相关内容,提取出高度相关的信息片段供语言模型生成高质量答案。

  5. 选择Rerank模型。

    打开Rerank模型选项,选择上文配置好的Rerank模型。

  6. 等待分段嵌入。

    等待分段嵌入,完成上传后可以在应用内关联知识库并使用。

管理知识库

单击Dify平台顶部的“知识库”按钮,在对应的知识库卡片右下角单击“...”按钮,如下图所示可以修改知识库名称以及知识库描述。

更多设置可以单击需要管理的知识库,然后轻点左侧导航中的设置进行调整。

您可以在此处调整知识库名称、描述、可见权限、索引模式、Embedding模型和检索设置。

召回测试

Dify知识库内提供了文本召回测试的功能,用于模拟用户输入关键词后调用知识库内容区块。召回的区块将按照分数高低进行排序并发送至LLM。一般而言,问题与内容块的匹配度越高,LLM所输出的答案也就更加贴近源文档,文本“训练效果”越好。

您可以使用不同的检索方式及参数配置,查看召回的内容区块质量与效果。不同的知识库分段模式对应不同的召回测试方法。