RAG
检索增强生成
在运行时把相关上下文注入 LLM Prompt,这些上下文来自你自己的数据,让模型基于你的知识回答,而不是它训练数据里的知识。
最近审阅: 2026-05-24
审阅人Kevin Riedl
wiki ↗
RAG 是让 LLM 能回答它没被训练过的数据相关问题的架构。机制很直接:拿用户的问题,从你的语料里检索最相关的片段(向量检索、关键字检索或两者混合),塞进 Prompt,让模型回答。
RAG 之所以存在:用私有数据训练模型既贵又慢,而且数据一变就过时。RAG 用「把数据当作运行时上下文」绕过了这一点。代价是检索质量成为瓶颈;上下文差的模型会信心十足地答错。
关于 RAG 的不性感真相:80% 的工作是把检索做好(切块策略、Embedding 选择、Rerank、混合搜索),20% 才是模型本身。把 RAG 包装成一键式功能的供应商,卖的是容易的那一部分。
// FAQ