基于自家文档做一个 RAG demo,是 AI 里最容易拿到的成果之一。把一个 retriever 指向你的 wiki,接上一个模型,一个下午你就有了一个能回答问题的东西。难的是 demo 之后的一切。一个能在会议上打动人的 demo,和一个员工或客户能够依赖的助手,不是一回事,而在欧盟,它必须是后者,而且要在 GDPR 和《AI 法案》下站得住脚,还不能有一张每季度悄悄翻倍的云账单。这就是我们在一个 RAG 系统从有意思走向可信赖之前,会逐项过的清单。
这些都不是反对 RAG。它是把你的知识交给模型、又无需重新训练任何东西的最便宜方式。这是在说:把 demo 当作工作的起点,而不是终点。
有一个需要上线的 RAG demo?
预约一次 RAG 生产评审下游的一切,都取决于模型能拿到正确的段落。如果检索很弱,再怎么调 prompt 也救不了你,因为模型是在用错误的来源、或者什么都没有的情况下作答。这正是 demo 跳过的部分,因为在几篇干净文档上,几乎任何配置看起来都没问题。
带检索的模型,你一放任,它照样幻觉。RAG 的纪律,是把模型拴在短绳上:从取回的上下文里作答,而且只从那里。

"一个 RAG demo 回答的是你测过的问题。一个 RAG 产品,必须回答你没测过的问题,并在该闭嘴时闭嘴。这两者之间的那道缝,就是整个项目。"
悄悄杀死 RAG 项目的,是每一次改动都感觉像进步,却没人能证明。你换了嵌入模型、调了一个 prompt、重建了索引,demo 还能跑,于是你就上线了。然后某一类问题悄悄变差了。
搭一套黄金问答集:一份固定的真实问题清单,配上你期望的答案和来源。每次改动都重新跑一遍,新 prompt、新模型、一次重建索引,然后做对比。它不需要花哨。它需要每次都一样,这样一次回退就会表现为一个往下掉的数字,而不是三周后的一句抱怨。
一个只服务一个人的 RAG demo,在一切要紧的意义上都是免费的。一个服务整家公司的 RAG 助手,是一张随用量增长的经常性账单,还有用户在每次查询里都能感受到的延迟。两者都是设计决策,不是事后才想的事。
这里的经济账正在快速变化,你现在选的架构,决定了你以后付多少。我们在LLM API 成本的转变里讲得更深。
在这一点上,欧盟企业有一份美国教程不会提的作业。我们这里是在概括层面描述义务,不是法律意见,具体细节取决于你的行业和你的数据。细节请咨询律师。但工程上的问题,已经清楚到足以放进一份清单了。
关于初创公司的《AI 法案》合规成本,以及 DACH 地区 SaaS 的 GDPR 与《AI 法案》如何叠加,我们另有专文,如果你想把监管这一面看得更深。
一个 RAG 系统有两个大多数 demo 从不面对的安全问题:模型可以通过它的输入被操纵,而索引成了敏感数据存放的一个新地方。
在你让任何人去依赖一个 RAG 助手之前,先把它过一遍。如果哪一行让你迟疑,那就是你要先修的那一行。
交付的不是一份关于 RAG 的幻灯片。是一个能取回正确内容、该拒答时就拒答、花费在你预算之内、且不泄露的系统。
RAG 的 demo 之所以容易,是因为它跳过了那些难的部分:弱检索藏在干净的测试文档背后,幻觉藏在你早已知道答案的问题背后,而成本、合规和权限这些问题,要等真实的人和真实的数据到来才会冒头。这些都不会消失。它们只是等到了生产环境,而那时去发现它们最贵。
如果你是一家欧盟企业,正把一个 RAG 助手从 demo 推向人们要去依赖的东西,那就在上线前把这份清单过一遍。检索、锚定和按用户权限这几行,正是信任被赢得、或被悄悄丢掉的地方,而在上线前把它们做对,远比事故后去解释要便宜得多。
有一个需要上线的 RAG demo?
预约一次 RAG 生产评审