知识库实际上是一组数据集的集合,通过将文件上传到RAGFlow的知识库中,并将他们解析可以得到数据集。RAGFlow目前支持的文件格式包括文件(PDF、DOC、DOCX、TXT、MD),表格(CSV、XLSX、XLS),图片(JPEG、JPG、PNG、TIF、GIF)以及幻灯片(PPT、PPTX)。创建知识库主要包括以下步骤:
一旦为知识库选择一个嵌入模型并且使用它进行了文件解析, 后续就不能改变选择的嵌入模型了。因为要确保一个知识库中所有的文件都使用相同的嵌入模型来解析,从而确保他们能够在同一个嵌入空间进行比较。
目前RAGFlow支持单次上传文件大小有限,文件过大可能会导致解析失败。
解析完成后,解析状态将变为“成功”字样。