软件的瓶颈从来不是智能，而是上下文。

要点速览

乐天让一个编程智能体对准 vLLM，要它实现一个特定方法。它在偶尔的人工指导下运行了约七个小时，相对参考实现达到 99.9% 的数值准确率。病毒式传播的“1250 万行代码”这个数字大约高了二十倍；真正的要点是，智能体在一个庞大、陌生、多语言的代码库里游走，并把改动落在了正确的位置。教训在于：瓶颈从来不是智能，而是上下文。人在脑中持有一个庞大系统时会疲惫、会出错，而智能体不会有这种上下文疲劳。这不会让工程师消失，而是把工作挪了位置。真正在规模化的人，擅长指挥智能体、给它们正确的上下文、用测试与护栏为产出把关，并像资深者一样审查，以抓住那个自信却错误的答案。委派成了新的深度工作。

有一个故事被反复传播：乐天给了一个 AI 编程智能体一个任务，让它在一个大型开源项目里完成，人走开了，几个小时后回来就拿到了能跑的代码。这是个好故事，而且大体属实。可大家反复念叨的那部分，也就是那几个小时和准确率数字，恰恰是最没意思的部分。真正有意思的是，它为什么能成，以及这对今天的工程工作意味着什么。

这是工程视角，不是销售话术。我们每周都在真实的客户项目里指挥编程智能体，所以这与其说是一个热门观点，不如说是对工作究竟如何改变的一份描述。

想让团队围绕编程智能体重新组织工作？

预约免费咨询

乐天到底发生了什么？

这里把事实说清楚，因为病毒式传播的版本夸大了其中一个数字。在 2025 年 5 月 Claude Opus 4 发布时，Anthropic 表示乐天用一次高难度的开源重构验证了该模型，这次重构独立运行了约七个小时。细节稍后才出现在乐天自己的客户案例里：一位工程师让 Claude Code 对准了开源推理引擎 vLLM，要它实现一个特定的激活向量提取方法。据称，结果相对参考实现达到了 99.9% 的数值准确率。

两点诚实的更正，因为我们宁可说得准确，也不愿说得夸张：

它并非无人值守。那位工程师描述说，在这几个小时里他偶尔给予了指导。“独立运行了七个小时”是真实而令人印象深刻的。“完全自主、零人工参与”并不是实际情况。
99.9% 是一个很窄的指标。它指的是某个方法的输出相对参考实现的数值准确率，并不是说该智能体在所有事情上都有 99.9% 的正确率。这个数字有用、具体，也很容易被当成标题来误读。

而互联网最爱的那个数字，也就是 vLLM 有“1250 万行代码”，恰恰是最该怀疑的。它出现在乐天自己的文案里，所以人们出于善意去引用，但它大约偏离了二十倍。vLLM 的核心大约是 84,000 行 Python，所有语言加起来不到 60 万行。只有把没人会去推敲的东西算进来，才能凑到 1250 万：整个 git 历史、每一个相关仓库、内置和生成的内核。更正之后，真正的要点依然成立：Claude 在一个它从未见过的大型多语言代码库里游走，涉及 Python、CUDA 和 C++，并把一处改动落在了正确的位置。这才是令人印象深刻的地方。重点从来不是代码行数。

为什么真正的瓶颈是上下文，而不是智能？

把这次演示剥到本质，结论几乎平淡无奇。一位早已熟悉 vLLM 的资深工程师也能写出那个方法。一位新员工最终也能，只是要花上几周、走不少弯路。资深与新人之间的差别从来不是原始智能，而是各自能同时在脑中持有并推理多大一部分代码库。

这就是大多数软件工作的瓶颈。问题不是“一个聪明人能否搞清楚”，而是“到底有没有人能在工作记忆里持有足够多的系统，在正确的位置做出正确的改动，而不至于弄坏另外三处”。在一个大型代码库里，这确实很难，而且这种难与你有多聪明毫无关系。

“AI 不会有上下文疲劳”到底是什么意思？

人类不擅长长时间持有大量上下文，并不是因为我们笨。我们会累。我们会忘记四十个文件之前读过的东西。一休息就丢了思路。在漫长一段工作的后半程，会犯下第一个小时绝不会犯的小错误。在脑中持有一个庞大系统的心智模型很耗神，而疲惫正是 bug 的来源。

编程智能体不会以这种方式疲惫。它能把一个大型代码库的相关切片始终摆在眼前，在第七个小时和第十分钟一样稳定地推理。这才是乐天故事里真正的解锁点。不是模型比资深工程师更聪明，而是它在一项漫长、上下文沉重的任务中不会像人那样状态下滑。是持续的上下文，而非更高的智能。

但有个真实的陷阱：智能体只能在它实际拿到的上下文上做出良好推理。把它对准错误的文件，或不给它关键约束，它就会毫不疲惫、却又自信满满地把错的东西造出来。喂给它正确的上下文，如今才是真正的技能。关于这项纪律的成本面，我们在如何在 2026 年降低 LLM Token 成本里写过：管理上下文，而不仅仅是花掉 token，才是这盘棋的大头。

如果你需要一套把持久记忆、共享状态、有界推理和意图路由分开的具体架构，请看我们的Meterless 上下文层事实核查评测。

如果缺失的是跨文件关系，我们的Graphify 采购评测对比代码库知识图谱、仓库搜索与 RAG，并给出可衡量的两周试点方案。

如果并行智能体的下一个瓶颈变成代码库准备与变更集成，请用我们的Git worktree 与 Jujutsu 决策指南，在调优后的 Git 基线和可测量的 Jujutsu 试点之间选择。

这会让工程师消失吗？

不会，而预言这件事的人通常是在卖东西。它真正做的是把工作挪了位置。如今在规模化的工程师，多半不是逐行手写代码的人。他们是擅长指挥智能体、带着批判眼光审查产出、并能识别出智能体即将做蠢事那一刻的人。

最后这项能力被低估了。智能体会产出自信、格式工整、看似合理却暗藏错误的代码，而一位初级审查者会因为它“看起来对”而放行。要抓住这一点，恰恰需要多年手写代码才培养出的判断力。经验并没有变得一文不值，它只是从“我敲出解法”变成了“我在错误的解法上线前就认出它”。如果你想看看这种审查具体长什么样，我们的vibe 代码生产就绪清单，就是我们用来对照智能体产出的那份清单。

当智能体写代码时，好的工程是什么样子？

委派成了新的深度工作。过去那些深度而有价值的时间，是埋头写下那个困难函数的时间。如今越来越多地，是把任务精确界定、组装正确上下文、并用锐利目光审查回传内容的时间。这是一块确实不同的肌肉，许多强工程师还没练出来，因为在他们整个职业生涯里，瓶颈一直是敲出解法，而不是把它说清楚。

这种模式下的好工程是这样的：一个收窄、定义清晰的任务；预先交给智能体的正确上下文；能自动抓住错误答案的测试与护栏；以及一个像资深者那样审查、而非橡皮图章式盖章的人。智能体快速且不知疲倦。工程师才是那个决定“正确”意味着什么、并验证它真的到达了那里的人。

"智能体把整个代码库放在脑中不会累，你会。这就是全部的转变。你的工作从写下每一行，变成了决定什么叫正确，并在智能体出错时把它抓住。"

你该如何围绕编程智能体重构工作流？

如果你想在自己的工作上复现乐天的结果，按顺序，真正重要的几步是：

把任务收窄界定。“实现这个特定方法，对齐这份参考”胜过“改进推理层”。正是精确的任务，才让七个小时的无人值守成为可能。模糊的任务，只会换来七个小时自信的弯路。
给它正确的上下文，而不是全部上下文。把智能体对准真正重要的文件、接口和约束。上下文不是越多越好，而是越对越好。如今大部分技能就藏在这里。
用测试与护栏来把关。乐天之所以能信任产出，是因为有一份可供比对的参考。把它复制过来：一套测试、一份参考、一道在答案错误时会大声失败的护栏。
像资深者一样审查，而不是盖橡皮图章。逐行读 diff，找出那些细微、看似合理的错误，那些能编译通过、也能糊弄一眼的错误。这是你投入的最高杠杆的一小时。
把所有权和知识留在内部。一个交付出团队没人看得懂的代码的智能体，是一项依赖，不是一场胜利。要确保有一个人对交付的东西负责，并能讲清楚它。

这些都不稀奇。它就是好工程一直需要的那份纪律，只是重新分配了权重：用更少的时间产出代码，用多得多的时间去界定和验证它。

最终思考

乐天的故事并不能证明 AI 比你的工程师更聪明。它证明的是，瓶颈从来不是智能。瓶颈是上下文，以及人在脑中持有一个庞大系统、却又不犯疲惫之错所付出的代价。智能体不会有上下文疲劳，这才是真正的转变。

于是工作发生了转移。在规模化的工程师，是那些擅长指挥智能体、给它们正确上下文、并在自信的错误答案上线前把它抓住的人。委派成了新的深度工作。该忽略的数字是 1250 万行。该练就的技能，是清楚地知道你在要求什么，并能认出智能体何时即将做蠢事。

想让团队真正会指挥智能体，而不只是会用？