Gartner 发布过一个数字,暗示到 2027 年大约 40% 的企业 AI agent 项目会被取消。从我们在 DACH 和欧盟构建 agent 系统的位置看,取消并不神秘。它们聚成 8 种失败模式。每种都有一个征兆,每种以不同方式杀死项目,而大多数如果在第一个月而非第六个月发现,都有便宜的修法。这篇文章就是我们希望在做第一个 agent 项目前有人写出来的事后复盘。
证据基础:Wavect 在 agent 与 AI 产品上的项目,包括 Twinsoft AI、PromptID、Quivr,以及 Hyperstate AI(已成功交付,上线后资金耗尽,不是产品或技术失败)。
Agent 项目有风险?
预约免费咨询征兆:演示里两条自信的错答案。团队补丁式改 prompt。下次演示,再两条不同形态的错答案。
它如何杀死项目:信任不是线性衰减。在高管面前一次明显的错答,价值相当于十次静默的成功。agent 变成“那个会撒谎的 AI 玩意儿”,预算转身走。
早期发现的便宜修法:约束动作空间。一个会说“我无法从提供的来源回答此问题,下面这位是最接近的人工对接”的 agent,胜过一个开始编故事的 agent。先建拒答路径,再建顺利路径。
征兆:孤立看 P50 延迟还行。多步任务上面向用户的 P95 延迟是 25 到 45 秒。
它如何杀死项目:用户抛弃 agent,回到他们本想替代的手工流程。adoption 拉平。CFO 问为什么我们要为没人用的 token 付费。
便宜修法:从第一周起按工具调用测量长尾延迟。在顺序不承重时并行工具调用。缓存幂等读。按步选 LLM 档位,而不是按 agent 选。能完成任务的最便宜模型胜出。
征兆:团队推一次 prompt 改动。没人知道有没有改善。在一个 Slack 串里靠感觉做回归测试。
它如何杀死项目:没有评测,每次改动都是赌博。系统漂移。八个冲刺过后,没人信得过这个 agent 到敢让它见真实用户。项目悄悄不再被优先处理。
便宜修法:给 agent 做 TDD。第一冲刺就建评测脚手架。对前 20 个用户意图做 golden-set 测试。pass-rate 作为部署关卡。我们在更广义的 QA 实践中写过,对 agent 来说加倍适用。
征兆:LLM 提供商的第一张账单还行。第三张账单是 12 倍。
它如何杀死项目:CFO 要看单位经济。每解决一张工单的成本超过毛利。agent 技术上成功,商业上死亡。
便宜修法:从第一天起追踪每次动作的成本。按步选模型。激进缩短 prompt。缓存静态上下文。带较小 embedding 的 RAG 胜过往 prompt 里塞 20 万 token 上下文。我们见过一周内能实施完成的架构选择带来 4 到 8 倍成本下降。
征兆:80% 的情况下 agent 能跑。另外 20% 没有逃生口。用户去找客服抱怨。客服看不到 agent 做了什么。
它如何杀死项目:客户侧团队搭一个平行绕道。agent 变成被绕过的 Tier-0。同时运维两条流程的成本把任何一条都说不过去。
便宜修法:在自治之前先设计交接。每个 agent 动作都附完整上下文记录。一键升级到人工并带上对话历史。明确策略:哪些情况 agent 必须让位。
征兆:agent 从知识库返回错误答案。团队调 prompt。毫无改善。
它如何杀死项目:团队在修错的层。源数据陈旧、矛盾或错误。任何 prompt 都修不了。几个月被埋进腐朽地基上的 prompt 工程里。
便宜修法:在扩 agent 前先审计源语料。每份文档有负责人、刷新节奏、矛盾检测。通往可用 agent 最快的路径,往往是更干净的数据管线,而不是更聪明的模型。
征兆:路线图写着“agent 将处理客服、销售线索筛选、内部知识查询、日程安排和合同评审。”
它如何杀死项目:每个能力都和其他能力争 prompt 预算、工具预算、评测预算。没有一个变好。团队为演示优化,交付一个在九件事上都平庸的 agent。
便宜修法:一个 agent、一项工作、一份评测。窄发上线。只有当前能力通过生产门槛评测,才加下一项。组合优于混淆。
征兆:agent 上线。两周后,法务问“审计日志在哪里?”和“我们怎么处理一个 GDPR 第 22 条异议?”
它如何杀死项目:agent 在缺口堵上之前被下线。团队用六周事后补合规。势头死掉。
便宜修法:把审计日志当作一等数据结构,而不是 console.log。MCP 工具调用记录输入、输出、模型版本、时间戳、操作者。人工覆盖界面记录是谁覆盖了什么、原因是什么。我们在配套文章里覆盖了 GDPR 与 AI Act 叠加合规的产物层。

"评测是衡量一个 agent 唯一诚实的尺度。其他都是带挑选过的查询的演示。"
按我们的经验,失败模式不会单独出现,会聚成簇。我们在卡住的项目里最常见的组合:
| 聚类 | 同时出现的失败模式 | 看起来像什么 |
|---|---|---|
| 演示到生产的悬崖 | 1、3、7 | 演示很棒、没有评测、agent 范围不断扩大,生产上线时在真实查询上暴露幻觉 |
| 沉默成本之死 | 2、4 | 延迟可忍、成本不可见,直到第三张月度账单,单位经济从未被建模 |
| 被运营拒收 | 5、8 | 无交接、无审计轨迹,运营团队拒绝接手,agent 永远停在试点 |
| 数据层海市蜃楼 | 3、6 | 在一份坏掉的语料上做了几个月 prompt 调优,团队怪模型,其实问题是数据 |
我们一致看到三项纪律动作,没一个奇异。
Hyperstate AI 已交付。然后公司上线后资金耗尽,这是融资失败,不是产品或技术失败。要点:即使技术执行干净,也救不了外部因素导致的项目。但马虎执行不管资本怎样都保证被取消。
Agent 项目以可预测的方式失败。幻觉、延迟、评测债、成本失控、缺交接、脏数据、范围贪心、审计缺口。这些没有一个是奇异问题。它们在第一个月被发现都有便宜修法,在第六个月被发现都贵。
如果你 2026 年在 DACH 或欧盟构建 agent,请把当前项目按上面 8 种模式自审一遍。你诚实地暴露在哪几种之下,就是下一个冲刺最高杠杆的待办。40% 的取消数字不是命运。它是团队跳过评测脚手架、忽视成本仪表盘、并在交接之前就设计自治的结果。
需要对你的 agent 项目多一双眼睛?
预约免费咨询