每 token 更便宜，每个答案却更贵。

要点速览

Claude Sonnet 5 的每 token 单价比 Opus 4.8 更低，但在完整的 Intelligence Index 基准测试中，每任务的总成本反而更高，约为 2.29 美元对 1.99 美元，因为在最高 effort 下它用了约 40% 更多的输出 token 和约三倍的 agentic 轮次，再加上一个把相同文本算作更多 token 的分词器。这不是 Sonnet 的怪癖，而是推理模型的普遍规律：每 token 的标价与每完成一个任务的真实成本，可能指向相反的方向。真正出现在账单上的，是把一个任务做到你的质量标准所需的总成本，包括推理、工具轮次和重试。请在你自己的评测集上测量它，按任务而不是按价目表来选模型，调好 effort 档位，并在模型更新时重新计算。这些数字是 2026 年的快照，落地前请再次核实。

Claude Sonnet 5 上市时的每 token 价格比 Opus 4.8 更低。随后 Artificial Analysis 跑完了整套 Intelligence Index 基准测试，结果 Sonnet 5 完成任务的总成本反而比 Opus 更高，在优惠价之前大约是每任务 2.29 美元对 1.99 美元（1）。

再读一遍。更便宜的模型，开出了更大的账单。

几乎没有人在看完每百万 token 的数字后，会去追问那个真正决定账单的问题：这个模型要烧掉多少 token 才能得出正确答案。

一个绕圈子推理的模型并不便宜。它只是起步便宜。

眼下真正在优化开支的团队，盯的是每完成一个任务的总成本，而不是每 token 的标价。其他人则即将打开一份令人非常困惑的账单。

没人给它定价的数字：得出答案所需的 token 数

每百万 token 的价格只是贴在橱窗上的标价。它告诉你单价，却对模型要开多远才能抵达目的地只字未提。

一次 API 调用背后藏着两笔成本：

单价。每百万输入和输出 token 的美元价格。这是每个定价页面都在宣传的数字。
token 数量。模型为完成你的任务实际消耗的 token 数，包括推理、重试，以及你从未看到的工具调用。

你的账单是这两者的乘积，而不是第一个数字。Artificial Analysis 把那个诚实的数字称为每任务成本：完成一个基准任务的加权平均成本，它按模型实际消耗的 token 计价，而不是按一个标准化的费率。用他们的话说，产出更长答案或更多推理 token 的模型，即便在完全相同的每 token 价格下，每任务成本也更高（2）。

把单价砍掉 40%，却让 token 消耗上升得更多，你就让模型看起来更便宜，实际上却更贵。

Sonnet 5 到底发生了什么

Sonnet 5 的上市是个干净利落的案例，因为 Anthropic 确实降了价，模型跑起来却仍然更贵。

纸面上看，Sonnet 5 是划算之选。标准费率是每百万输入 token 3 美元、每百万输出 token 15 美元，另有一档 2 美元和 10 美元的上市优惠价，持续到 2026 年 8 月 31 日。Opus 4.8 则是 5 美元和 25 美元（3）。按标价算，Sonnet 每 token 大约便宜 40%，在优惠期内大约便宜 60%。

然后你真的去跑它。Artificial Analysis 发现，在最高推理强度下，Sonnet 5 在每个 Intelligence Index 任务上使用的输出 token 比 Sonnet 4.6 多出约 40%，智能体轮次约为其三倍。在知识工作类评测中，它在最高强度下烧掉的轮次约为最低强度时的六倍。性能提升来自更长的推理链和更多的工具调用，而不是来自效率（1）。

再叠加上第二个更安静的变化：Sonnet 5 换用了更新后的分词器，把同样的文本映射成上一代大约 1.0 到 1.35 倍的 token 数（4）。所以在模型还没开始对任何东西推理之前，同一段提示词就已经被算成了更多的 token。

费率更低、每个答案的 token 更多、每单位文本的 token 更多。这三者合起来，得出了没人放进幻灯片的结果：在整套测试上，Sonnet 5 每完成一个任务的成本，比它本该压制的那个模型还要高。

"一个绕圈子推理的模型，就算单价更便宜，也不是折扣。那是一张延后开出的账单。真正赢的团队读的是整张收据，而不是货架上的标价。"

这里的数字是 2026 年的一个快照，来自公开基准测试和厂商定价。费率、分词器和模型行为都变得很快，而你的工作负载并不是那套基准测试。在做决定之前，请重新核对这些数字，更重要的是，先衡量你自己的数字。

为什么推理模型会打破标价逻辑

这不是 Sonnet 的问题。这是推理模型的问题，而且是结构性的。

推理模型靠在回答之前先思考来赚取分数。而思考就是 token：内部推理、自我验证、工具调用和重试，其中大部分你都付了钱却从未读到。一个模型的 token 效率，也就是它实际完成一个任务所需的 token 数，是比它的头条价格更具决定性的成本因素（5）。

模型之间的差距可以极其巨大。在一项公开的推理基准测试中，一个小型推理模型在相同问题上生成的完成 token，比一个可比的非推理模型多出十倍以上（6）。同样的任务，期望同样的答案，为得出它却多花了一个数量级的 token。

所以一个模型可以是：

每 token 更便宜，但每任务更贵，因为它想得更久。
每 token 更贵，但每任务更便宜，因为它一遍就得出答案，而不是五遍。

标价和真实成本不只是两个不同的数字。它们可以指向相反的方向。

每任务成本的定义

如果你只想从这篇文章里带走一个指标，就带走这个。

每完成一个任务的成本，是把一个真实任务做到你的质量标准所花的总开支，横跨每一个 token、每一轮交互。不是每 token，不是每次请求。而是每一个已完成、可接受的答案。

它捕捉到了标价所掩盖的东西：

推理 token。模型在回答之前所做的思考。
输出长度。一个啰嗦的模型即便费率相同也会多计费。
智能体轮次。每一次工具调用和追问都是又一次计费的往返。
重试。答错后你不得不重跑，这可不是免费的。
分词器漂移。同样的文本在更新的模型上可能被算成更多的 token。

一个起步便宜、收尾昂贵的模型，在这个衡量标准下就是不及格的。而这正是使用这个标准的全部意义。

想直截了当地弄清楚哪个模型对你的工作负载才是真正最便宜的？

预约免费咨询

如何衡量每完成一个任务的成本

你不需要一个研究实验室。你需要的是你自己的任务和一杆秤。下面是我们在向客户推荐某个模型之前会跑的流程。

定义任务和质量标准。不是"帮我总结这个"，而是"产出一份能通过这套评分标准的总结"。任务只有达到标准才算完成，否则重试的成本就该算进去。
用真实工作搭一个小型评测集。从你实际产品里取二十到五十个有代表性的任务，胜过任何公开基准测试，因为那套基准测试不是你的工作负载。
让每个候选模型跑到完成为止。用同样的任务、同样你会上线的设置。让它按上线后的方式去推理、调用工具和重试。
数清直到完成的每一个 token。输入、输出、推理，以及每一个智能体轮次。用厂商提供的 token 计数，而不是估算，因为不同模型的分词器各不相同。
为整条路径计价，包括失败。把 token 乘以真实费率，加上模型第一次答错的任务上重试的成本。这个总数除以已完成的任务数，就是你的每完成一个任务的成本。

做一次这个，排名往往就翻转了。那个每 token 费率吓人的模型可能是完成任务最便宜的，而那个看起来便宜的模型可能正是在悄悄推高账单的那一个。

这对模型选型意味着什么

这里的教训不是"永远选贵的模型"。而是"别再按标价选"。

我们遵循的几条规则：

让模型匹配任务，而不是匹配价目表。一个一遍就能答对的强模型，可能比一个绕圈子的弱模型每任务更便宜。把简单、高频的工作路由给便宜的模型，把困难、含糊的工作路由给强模型。我们在如何在 2026 年削减 LLM token 成本里写下了完整的路由手册。
调好强度旋钮。在推理模型上，最高强度正是每任务成本爆炸的地方。在值得追求正确性的地方用高强度，在日常工作上用较低强度，然后在你自己的评测上衡量差异。
盯住智能体轮次数，而不只是 token。每多一次工具调用和重试都是又一次计费的往返。一个三轮就完成的模型，即便费率更高，也可能胜过一个十轮才完成的模型。
模型更新时重跑数字。一个新版本可能同时改变分词器和推理行为，就像 Sonnet 5 那样。上个季度的成本排名不等于这个季度的。

每 token 的价格是营销数字。每完成一个任务的成本才是落到你账单上的数字。去优化你真正付钱的那个。

最终思考

Sonnet 5 上市时更便宜，跑起来却更贵。这不是偶然，而是当一个推理模型为了拿更高的分数而想得更久、你又按标价给它定价时，必然会发生的事。解决办法不是换一个模型。而是换一个数字：每完成一个任务的总成本，在你自己的工作上衡量，把推理、轮次和重试都算进去。

读完整张收据。这么做的团队已经在用更少的钱换更好的答案。不这么做的团队，即将收到一份非常令人困惑的账单。

References

Artificial Analysis (2026) ‘Claude Sonnet 5: strong agentic performance at a higher cost per task.’ 每个 Intelligence Index 任务的成本（约 2.29 美元，对比 Opus 4.8 的约 1.99 美元、Sonnet 4.6 的约 1.15 美元）；在最高强度下，输出 token 比 Sonnet 4.6 多约 40%，智能体轮次约为其三倍。可访问：https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost（访问日期：2026 年 7 月 2 日）。
Artificial Analysis (2026) ‘Language Model Benchmarking Methodology.’ 把每任务成本定义为完成一个 Intelligence Index 任务的加权平均成本；在完全相同的每 token 价格下，更长的答案和更多的推理 token 会抬高每任务成本。可访问：https://artificialanalysis.ai/methodology（访问日期：2026 年 7 月 2 日）。
Anthropic (2026) ‘Models overview and pricing.’ Claude Sonnet 5 为每百万 token 3 美元/15 美元（上市优惠 2 美元/10 美元，持续到 2026 年 8 月 31 日）；Claude Opus 4.8 为 5 美元/25 美元。可访问：https://platform.claude.com/docs/en/about-claude/models/overview（访问日期：2026 年 7 月 2 日）。
Anthropic (2026) ‘Model migration guide.’ Claude Sonnet 5 使用更新后的分词器，把同样的文本映射成上一代大约 1.0 到 1.35 倍的 token 数；请用 token 计数重新建立基线。可访问：https://platform.claude.com/docs/en/about-claude/models/migration-guide（访问日期：2026 年 7 月 2 日）。
CloudZero (2026) ‘LLM API pricing comparison.’ token 效率，也就是一个模型完成任务所需的 token 数，是比头条每 token 价格更关键的成本因素。可访问：https://www.cloudzero.com/blog/llm-api-pricing-comparison/（访问日期：2026 年 7 月 2 日）。
Wang, L. et al. (2025) ‘NPPC: an ever-scaling reasoning benchmark for LLMs.’ 一个小型推理模型在相同任务上生成的完成 token，比一个可比的非推理模型多出大约一个数量级。可访问：https://arxiv.org/pdf/2504.11239（访问日期：2026 年 7 月 2 日）。