RAG概述

近年来,大模型技术经历了从通用化到垂直化、从单一模态到多模态融合的快速发展。随着GPT-4、DeepSeek等千亿级参数模型的涌现,人工智能在文本生成、逻辑推理等任务中展现出接近人类水平的潜力。但传统大模型的“幻觉”问题、知识更新滞后、企业数据的隐私安全等局限性逐渐显现:

为了解决上述问题,RAG(Retrieval-Augmented Generation,检索增强生成)解决方案就孕育而生,是一种结合检索和生成技术的模型,旨在通过引用知识库的信息来生成高质量、准确且具有可解释性的答案或内容。利用知识库进行信息检索,为LLM生成过程提供丰富的背景知识和上下文信息,从而提高生成结果的准确性和多样性。知识库主要是充分利用用户的私有数据进行构建,信息专业性更强,准确度更高;并且可以对知识库数据进行更新,从而解决知识局限性和幻觉的问题。

RAG的主要流程:

  1. 知识库准备:将大量的领域知识和资料上传至向量数据库,存储为向量数据。
  2. 问题输入:将输入的文本问题Embed为带有向量的提问。
  3. 向量检索:向量化提问进入提前准备好的向量数据库中,通过向量检索引擎计算向量相似度,匹配出Top-K条语义最相关的文档。
  4. Prompt增强:将检索到的文档和用户提问一起整合为Prompt输入给大模型。
  5. 结果返回:大模型从Prompt获取上下文,生成更精准的回答。

RAG的典型架构: