每 token 更便宜,每个答案却更贵。
Claude Sonnet 5 上市时的每 token 价格比 Opus 4.8 更低。随后 Artificial Analysis 跑完了整套 Intelligence Index 基准测试,结果 Sonnet 5 完成任务的总成本反而比 Opus 更高,在优惠价之前大约是每任务 2.29 美元对 1.99 美元(1)。
再读一遍。更便宜的模型,开出了更大的账单。
几乎没有人在看完每百万 token 的数字后,会去追问那个真正决定账单的问题:这个模型要烧掉多少 token 才能得出正确答案。
一个绕圈子推理的模型并不便宜。它只是起步便宜。
眼下真正在优化开支的团队,盯的是每完成一个任务的总成本,而不是每 token 的标价。其他人则即将打开一份令人非常困惑的账单。
没人给它定价的数字:得出答案所需的 token 数
每百万 token 的价格只是贴在橱窗上的标价。它告诉你单价,却对模型要开多远才能抵达目的地只字未提。
一次 API 调用背后藏着两笔成本:
- 单价。每百万输入和输出 token 的美元价格。这是每个定价页面都在宣传的数字。
- token 数量。模型为完成你的任务实际消耗的 token 数,包括推理、重试,以及你从未看到的工具调用。
你的账单是这两者的乘积,而不是第一个数字。Artificial Analysis 把那个诚实的数字称为每任务成本:完成一个基准任务的加权平均成本,它按模型实际消耗的 token 计价,而不是按一个标准化的费率。用他们的话说,产出更长答案或更多推理 token 的模型,即便在完全相同的每 token 价格下,每任务成本也更高(2)。
把单价砍掉 40%,却让 token 消耗上升得更多,你就让模型看起来更便宜,实际上却更贵。
Sonnet 5 到底发生了什么
Sonnet 5 的上市是个干净利落的案例,因为 Anthropic 确实降了价,模型跑起来却仍然更贵。
纸面上看,Sonnet 5 是划算之选。标准费率是每百万输入 token 3 美元、每百万输出 token 15 美元,另有一档 2 美元和 10 美元的上市优惠价,持续到 2026 年 8 月 31 日。Opus 4.8 则是 5 美元和 25 美元(3)。按标价算,Sonnet 每 token 大约便宜 40%,在优惠期内大约便宜 60%。
然后你真的去跑它。Artificial Analysis 发现,在最高推理强度下,Sonnet 5 在每个 Intelligence Index 任务上使用的输出 token 比 Sonnet 4.6 多出约 40%,智能体轮次约为其三倍。在知识工作类评测中,它在最高强度下烧掉的轮次约为最低强度时的六倍。性能提升来自更长的推理链和更多的工具调用,而不是来自效率(1)。
再叠加上第二个更安静的变化:Sonnet 5 换用了更新后的分词器,把同样的文本映射成上一代大约 1.0 到 1.35 倍的 token 数(4)。所以在模型还没开始对任何东西推理之前,同一段提示词就已经被算成了更多的 token。
费率更低、每个答案的 token 更多、每单位文本的 token 更多。这三者合起来,得出了没人放进幻灯片的结果:在整套测试上,Sonnet 5 每完成一个任务的成本,比它本该压制的那个模型还要高。

"一个绕圈子推理的模型,就算单价更便宜,也不是折扣。那是一张延后开出的账单。真正赢的团队读的是整张收据,而不是货架上的标价。"
这里的数字是 2026 年的一个快照,来自公开基准测试和厂商定价。费率、分词器和模型行为都变得很快,而你的工作负载并不是那套基准测试。在做决定之前,请重新核对这些数字,更重要的是,先衡量你自己的数字。
为什么推理模型会打破标价逻辑
这不是 Sonnet 的问题。这是推理模型的问题,而且是结构性的。
推理模型靠在回答之前先思考来赚取分数。而思考就是 token:内部推理、自我验证、工具调用和重试,其中大部分你都付了钱却从未读到。一个模型的 token 效率,也就是它实际完成一个任务所需的 token 数,是比它的头条价格更具决定性的成本因素(5)。
模型之间的差距可以极其巨大。在一项公开的推理基准测试中,一个小型推理模型在相同问题上生成的完成 token,比一个可比的非推理模型多出十倍以上(6)。同样的任务,期望同样的答案,为得出它却多花了一个数量级的 token。
所以一个模型可以是:
- 每 token 更便宜,但每任务更贵,因为它想得更久。
- 每 token 更贵,但每任务更便宜,因为它一遍就得出答案,而不是五遍。
标价和真实成本不只是两个不同的数字。它们可以指向相反的方向。
每任务成本的定义
如果你只想从这篇文章里带走一个指标,就带走这个。
每完成一个任务的成本,是把一个真实任务做到你的质量标准所花的总开支,横跨每一个 token、每一轮交互。不是每 token,不是每次请求。而是每一个已完成、可接受的答案。
它捕捉到了标价所掩盖的东西:
- 推理 token。模型在回答之前所做的思考。
- 输出长度。一个啰嗦的模型即便费率相同也会多计费。
- 智能体轮次。每一次工具调用和追问都是又一次计费的往返。
- 重试。答错后你不得不重跑,这可不是免费的。
- 分词器漂移。同样的文本在更新的模型上可能被算成更多的 token。
一个起步便宜、收尾昂贵的模型,在这个衡量标准下就是不及格的。而这正是使用这个标准的全部意义。
想直截了当地弄清楚哪个模型对你的工作负载才是真正最便宜的?
预约免费咨询如何衡量每完成一个任务的成本
你不需要一个研究实验室。你需要的是你自己的任务和一杆秤。下面是我们在向客户推荐某个模型之前会跑的流程。
- 定义任务和质量标准。不是"帮我总结这个",而是"产出一份能通过这套评分标准的总结"。任务只有达到标准才算完成,否则重试的成本就该算进去。
- 用真实工作搭一个小型评测集。从你实际产品里取二十到五十个有代表性的任务,胜过任何公开基准测试,因为那套基准测试不是你的工作负载。
- 让每个候选模型跑到完成为止。用同样的任务、同样你会上线的设置。让它按上线后的方式去推理、调用工具和重试。
- 数清直到完成的每一个 token。输入、输出、推理,以及每一个智能体轮次。用厂商提供的 token 计数,而不是估算,因为不同模型的分词器各不相同。
- 为整条路径计价,包括失败。把 token 乘以真实费率,加上模型第一次答错的任务上重试的成本。这个总数除以已完成的任务数,就是你的每完成一个任务的成本。
做一次这个,排名往往就翻转了。那个每 token 费率吓人的模型可能是完成任务最便宜的,而那个看起来便宜的模型可能正是在悄悄推高账单的那一个。
这对模型选型意味着什么
这里的教训不是"永远选贵的模型"。而是"别再按标价选"。
我们遵循的几条规则:
- 让模型匹配任务,而不是匹配价目表。一个一遍就能答对的强模型,可能比一个绕圈子的弱模型每任务更便宜。把简单、高频的工作路由给便宜的模型,把困难、含糊的工作路由给强模型。我们在如何在 2026 年削减 LLM token 成本里写下了完整的路由手册。
- 调好强度旋钮。在推理模型上,最高强度正是每任务成本爆炸的地方。在值得追求正确性的地方用高强度,在日常工作上用较低强度,然后在你自己的评测上衡量差异。
- 盯住智能体轮次数,而不只是 token。每多一次工具调用和重试都是又一次计费的往返。一个三轮就完成的模型,即便费率更高,也可能胜过一个十轮才完成的模型。
- 模型更新时重跑数字。一个新版本可能同时改变分词器和推理行为,就像 Sonnet 5 那样。上个季度的成本排名不等于这个季度的。
每 token 的价格是营销数字。每完成一个任务的成本才是落到你账单上的数字。去优化你真正付钱的那个。
最终思考
Sonnet 5 上市时更便宜,跑起来却更贵。这不是偶然,而是当一个推理模型为了拿更高的分数而想得更久、你又按标价给它定价时,必然会发生的事。解决办法不是换一个模型。而是换一个数字:每完成一个任务的总成本,在你自己的工作上衡量,把推理、轮次和重试都算进去。
读完整张收据。这么做的团队已经在用更少的钱换更好的答案。不这么做的团队,即将收到一份非常令人困惑的账单。
想让我们为你的产品,在各个模型间对每任务成本做一次基准测试?
预约免费咨询References
- Artificial Analysis (2026) ‘Claude Sonnet 5: strong agentic performance at a higher cost per task.’ 每个 Intelligence Index 任务的成本(约 2.29 美元,对比 Opus 4.8 的约 1.99 美元、Sonnet 4.6 的约 1.15 美元);在最高强度下,输出 token 比 Sonnet 4.6 多约 40%,智能体轮次约为其三倍。可访问:https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost(访问日期:2026 年 7 月 2 日)。
- Artificial Analysis (2026) ‘Language Model Benchmarking Methodology.’ 把每任务成本定义为完成一个 Intelligence Index 任务的加权平均成本;在完全相同的每 token 价格下,更长的答案和更多的推理 token 会抬高每任务成本。可访问:https://artificialanalysis.ai/methodology(访问日期:2026 年 7 月 2 日)。
- Anthropic (2026) ‘Models overview and pricing.’ Claude Sonnet 5 为每百万 token 3 美元/15 美元(上市优惠 2 美元/10 美元,持续到 2026 年 8 月 31 日);Claude Opus 4.8 为 5 美元/25 美元。可访问:https://platform.claude.com/docs/en/about-claude/models/overview(访问日期:2026 年 7 月 2 日)。
- Anthropic (2026) ‘Model migration guide.’ Claude Sonnet 5 使用更新后的分词器,把同样的文本映射成上一代大约 1.0 到 1.35 倍的 token 数;请用 token 计数重新建立基线。可访问:https://platform.claude.com/docs/en/about-claude/models/migration-guide(访问日期:2026 年 7 月 2 日)。
- CloudZero (2026) ‘LLM API pricing comparison.’ token 效率,也就是一个模型完成任务所需的 token 数,是比头条每 token 价格更关键的成本因素。可访问:https://www.cloudzero.com/blog/llm-api-pricing-comparison/(访问日期:2026 年 7 月 2 日)。
- Wang, L. et al. (2025) ‘NPPC: an ever-scaling reasoning benchmark for LLMs.’ 一个小型推理模型在相同任务上生成的完成 token,比一个可比的非推理模型多出大约一个数量级。可访问:https://arxiv.org/pdf/2504.11239(访问日期:2026 年 7 月 2 日)。