周日有个有意思的通话。一句话留下来了。LLM 变好之后,专注力是新的瓶颈。不是写代码。不是修 bug。是控制编排。一旦 agent 数量超过某个点,输出质量就开始下降,工作从敲键盘转向决定哪个 agent 跑、用什么上下文、对照什么检查。新的技能组合是专注力、上下文管理和 QA。在真实客户项目上,键盘时间大部分变成了 agent 监督,跑了一年下来,我同意这个说法。
这篇文章讲为什么这个天花板存在、在实际中它长什么样,以及我们如何在真实的 Wavect 项目上把 agent 数量控制在天花板之下。
用 AI agent 在构建?
预约免费咨询在软件历史的大部分时间里,瓶颈是吞吐量。资深工程师能多快把规格变成可运行的代码。工具的衡量标准就是它能从这个循环里去掉多少。自动补全、片段、IDE 重构,然后是 Copilot,再然后是完整的编码 agent。
到 2026 年,对最难的那 10% 之外的工作,这个循环基本消失了。一个能干的操作者跑一个编码 agent,一天能写出的代码量比几年前一个三人团队还多。约束变了。
新的约束不是“agent 能不能写出代码”。是“我还剩多少注意力来核对 agent 产出的东西、把下一个任务路由给正确的 agent、并让每个 agent 的上下文窗口干净到让输出保持诚实”。这是专注力问题,不是打字问题。
任何并行跑过两个以上 agent 的人都经历过类似的瞬间。Agent A 产出的代码看起来没问题。Agent B 产出的重构和 Agent A 冲突。Agent C 建议的测试两边都没覆盖。你花在协调它们上的时间比并行省下的还多。你加上第四个 agent 来分诊冲突,它又制造了新的冲突。
那就是天花板。它不是一个硬数字,会根据三个变量浮动。
从我们并行跑过两个以上编码 agent 的项目里看,失败模式聚成七类,按频率排序如下。
如果打字循环基本被自动化,瓶颈就是操作者的注意力。三项技能决定操作者能不能扩展,还是会停滞。
1. 专注纪律。知道在不掉质量的前提下你能监督多少个 agent。把那个数字当作硬约束,而不是想破的目标。我们雇过的大多数操作者天花板在并发三个 agent。少数能轻松到五个。没见过能稳跑十个还不掉质量的。
2. 上下文管理。知道什么时候重置一个 agent,什么时候总结一段长对话,什么时候为同一个任务开一个新上下文,什么时候保留历史。这是这份工作里三年前还不存在的部分。MCP 生态开始提供结构化的上下文交接,有所帮助,但操作者仍然要选择保留什么。
3. 质量保证设计。如果操作者读不过每一份输出,评测套件就得读。QA 不再是一个阶段,而成了循环本身。测试、快照检查、回归套件、行为评测、每次 agent 提交后的冒烟测试。你跑的 agent 越多,QA 栈承担的重量就越大。

"天花板不是工具问题,是注意力问题。买更好的 agent 不会抬高它。投入评测才会。"
Wavect 的每个 AI 项目里,操作者对 agent 的比例都在一开始就设好,并按周调整。我们反复回到的规则。
这些都不算开创性。它和团队不用 AI 时的运作方式一致。有意思的是,它现在适用于一个人指挥一群 agent。
它移动了招聘标准。2026 年最有价值的工程师不是打字最快的那个。是能让五个 agent 持续高产、且输出质量不漂移的那个。这是把专注纪律、上下文管理纪律和 QA 纪律揉在一起的能力。每一项我们都能训练。我们不能完全训练的是“注意到一个 agent 开始撒谎说自己干了什么”的能力。那来自经验。
这也是为什么 fractional CTO 这个角色在变。几年前的价值是技术判断和交付速度。今天,一半的价值是校准一支早期团队的 agent 监督能力,并搭建让那种能力安全扩展的评测脚手架。我们在几乎每个重 AI 的项目里都看到这一点。
这意味着小团队现在能打赢大团队吗?评测脚手架强的小团队打赢评测脚手架弱的大团队。人头不再是代理指标,监督能力才是。
编码 agent 会不会让这件事更简单?更好的编码 agent 提升个体输出质量,但不提升监督能力。天花板移动得很慢,因为注意力是硬约束。
那 agent 监督 agent 呢?有些团队上线了“评审 agent”来检查编码 agent。在边际上有帮助。它不解决专注力问题,因为还是得有人监督评审者。叠层不会消除操作者的注意力预算,只是花在别的地方。
怎么知道一个 agent 开始漂移?三个信号。输出比上下文支持的还自信。agent 不再追问澄清问题。原本会失败的测试在没改代码的情况下通过了。任何一个出现,就是重置上下文的信号。
这只是工程问题,还是也适用于非代码工作?只要 agent 涉足的地方都适用。我们在客服自动化、研究工作流和在专家 agent 之间路由的 RAG 流水线里都见过同样的模式。数字会变,形状一样。
周日通话里的观察是对的。瓶颈从打字移到了专注力,大多数团队还在用旧的约束衡量自己。盯着你的团队能在不掉质量的前提下监督多少 agent,现在是一个领先指标。投入评测和上下文纪律会抬高天花板。买更多 agent 不会。
如果你 2026 年在扩一支重 AI 的团队、输出质量正在出毛边,正确动作不是更多 agent。是每位操作者更少的 agent、更强的评测,以及更短的监督会话。无聊。有效。
你觉得你团队的天花板在哪里。告诉我们,我们想对一下笔记。
在扩一支 AI 团队?
预约免费咨询