LLM
Large Language Model
一种经过训练以预测下一个 token 的统计模型,这使它在语言任务上出奇地出色,而在任何需要保证正确性的事情上都不可靠。
LLM 是一种在海量文本上训练、只做一件事的模型:根据之前的全部内容预测下一个 token(大致是下一个词片段)。把足够多的这种预测叠加起来,就得到了流畅的回答、摘要、翻译和代码。这就是全部的诀窍。它不是人类意义上的推理,而是非常出色的模式补全。
这一点很重要,因为它同时解释了魔力与局限。LLM 对你的业务没有记忆,没有超出其训练截止日期的知识,也没有内置的保证它给出的流畅回答是真实的。它会用与正确事实完全相同的自信说出一个错误事实。这种失败有个名字,叫幻觉,它不是一个可以打补丁修掉的故障,而是下一个 token 预测在缺乏接地时必然产生的结果。把它当作工具,而不是神谕。
正确的架构,举个实际例子:一家公司想要一个能回答自家合同问题的助手。朴素的做法是直接问原始模型,结果得到自信而错误的引用。能跑通的做法是把模型包裹起来:用 RAG 在查询时检索相关的合同条款,让答案来自公司自己的文档而不是模型训练时刻的知识,输出对照一个 schema 做校验,任何触发法律动作的请求都经由人工。模型没有变聪明;是它周围的工程变得认真了。
创始人最常犯的错误,是用一个更大的模型去修一个接地问题,或者在真正需要检索时去做微调。微调改变的是风格和格式;它不能可靠地注入事实,而且你的数据一变它就过时。诚实的取舍:当你需要确定性的、可审计的输出时,LLM 就是错误的工具,税务计算、监管逻辑,任何「通常正确」就构成隐患的场景;而它正适合起草、分类、抽取,以及在你自己的数据上做搜索。放进一个Agent 式循环里,它就能行动,而不只是回答,这又把赌注抬高了一层。我们在 人工智能 下构建的正是这种有接地、经校验的系统。当作真理来源使用时,LLM 是一个充满自信的隐患。