如何在 2026 年降低 LLM Token 成本:路由、缓存、压缩与选对模型
单位 token 价格塌了,可不少团队今天为 LLM 付的钱反而比一年前更多。原因很简单。单价降了,但带 agent 的产品现在每个任务要调用模型几十到几百次,而这些 token 大多是模型根本用不上的上下文。便宜的 token 乘以高调用量,仍然是一笔大账单。这就是我们用来把它降下来、同时不牺牲质量的实战手册,按我们实际执行的顺序排列。
这是工程视角,不是供应商推销。下面的价格与基准点是方向性的,取自 2026 年的公开价格趋势,并非某家供应商的报价。参考点来自 Wavect 在 AI 产品上的工作。
Token 账单失控了?
预约免费咨询单价都塌了,为什么你的 LLM 账单还这么高?
一笔大账单里藏着三件事,没有一件是标题上的单位 token 价格:
- 调用量。一个 agent 循环每个任务调用模型 50 到 200 次,就把便宜的单位 token 价格变成了昂贵的单位任务价格。你付费的单位是任务,不是 token。
- 浪费的上下文。一次典型调用里,很大一部分输入 token 是模型在这一步用不上的上下文。业界文章把未优化的 agent 工作流的浪费估在 40% 到 60% 之间。这些 token 你每次调用都在付钱。
- 用错模型做错任务。“为保险起见”把每个请求都路由到 frontier 模型,是最常见的多花钱方式。大多数请求并不需要你最贵的模型。
按这个顺序解决。最便宜的收益排在前面,而且它们不需要重训模型,也不需要重写架构。
最快的收益是什么?Prompt 缓存与批处理。
在动你的架构之前,先把供应商免费给你的两个折扣拿到手。
- Prompt 缓存。当连续调用共享一段稳定前缀(system prompt、指令、检索到的上下文)时,供应商可以跳过对它的重新处理。命中缓存的输入在 Anthropic 上大约便宜 90%,在 OpenAI 上约为半价,Google 在缓存命中时大约按基础价的 10% 计费。工程上的杠杆在于顺序:把稳定内容放前面,把易变的用户输入放最后,让缓存前缀在多次调用之间保持不变。
- 批处理。每家大供应商都提供批处理端点,价格大约是实时价的一半,代价是一个异步完成窗口。任何不需要亚秒级响应的工作,评估、数据富化、分类、摘要任务,都应该走批处理。
这些折扣可以叠加。同一批工作负载上,缓存命中加批处理能把命中缓存的输入压到标准价的 95% 以下。一个每月处理数十万份文档的团队,只改端点和 prompt 顺序,就能把四位数的月账单降到零头。

"很多团队一上来就想换模型,可最便宜的收益其实是重排 prompt,让缓存真正命中。"
模型路由如何在不损质量的前提下降本?
路由就是让便宜的模型处理简单的大多数,让昂贵的模型处理困难的少数。盲目去做会掉质量。配上一个置信度检查就不会。
- 便宜默认加升级。先跑一个中端或小模型。如果结构化的置信度检查没通过,答案置信度低、不符合 schema,或被校验器标记,就升级到 frontier 模型。把升级率当作产品 KPI 来跟踪。升级率上升,说明你让便宜模型干了太多。
- Router 与 gateway。RouteLLM 这类开放框架给出了硬数据:只把 14% 到 26% 的调用发给强模型,就能拿到约 95% 的 frontier 质量,在被路由的流量上相当于降本 75% 到 85%。在多家供应商前面放一个 LLM gateway,还能让你在一个地方设置缓存、回退和花费上限。
我们在生产中的 AI 工作里使用升级模式,包括像 Twinsoft AI 这样的项目。让它安全的纪律,和这里其他一切的纪律一样:一个评估框架,告诉你便宜路径是否真的守住了质量。
2026 年你到底该用哪些 frontier 模型?
没有单一的最佳模型。只有按任务而定的最佳模型,而价格与性能的差距现在已经大到,模型选择是你最大的成本杠杆之一。2026 年的格局分成两个阵营。
- 西方 frontier。Claude、GPT 和 Gemini 在最难的推理和编码任务、以及最深的 agent 循环上仍然领先。当一个错误答案代价高昂时,一旦把修正糟糕输出的开发时间算进去,frontier 模型在总成本上通常会胜出。
- 中国开源权重 frontier。DeepSeek、Qwen、Kimi 和 GLM 在真实的编码和推理上已经基本追平质量差距,价格往往每 token 比西方 frontier 低 15 到 30 倍。对高用量、对成本敏感的工作负载,它们改写了账。
按类别给出的方向性价格,按每 1M token 归一化。请当作公开趋势的快照,而非报价,并在投入前重新核对。
| 类别 | 示例档位 | 输入 | 输出 | 最适合 |
|---|---|---|---|---|
| 西方 frontier 推理 | 顶级 Claude / GPT / Gemini 档 | ~$2 到 $3 | ~$10 到 $15 | 最难的推理、深度 agent |
| 西方 frontier 通用 | 中端 Claude / GPT / Gemini 档 | ~$0.60 | ~$3 | 对质量敏感的默认选择 |
| 中国开源权重 frontier | Kimi / Qwen Max 级 | ~$0.95 到 $1.25 | ~$2 到 $5 | 低成本下的强编码 |
| 中国 budget / flash | DeepSeek flash 级 | ~$0.14 | ~$0.28 | 高用量、对成本敏感 |
对一个欧盟团队来说,难点不是质量,是治理。推理在哪里跑、数据落在哪里,对数据驻留和合规很关键。把中国开源权重模型自托管在欧盟基础设施上,你就能保住价格优势而不把数据送出境。通过非欧盟 API 使用它,你就得先回答一个合规问题。无论哪种,换之前先跑你自己的评估。一个每 10 个任务失败 1 个的便宜模型,并不便宜。
本地加 frontier 的混合:自托管开源权重什么时候才划算?
混合模式就是用小模型或开源权重模型扛住大部分流量,用 frontier API 处理困难的尾部。问题是什么时候把大部分搬进自己家。2026 年的诚实答案:比多数团队以为的要晚。
- 盈亏平衡点由工程师时间决定,而不是 GPU 机架价。模型本身跑起来很便宜。运维、评估纪律和升级节奏才不便宜。
- 对大多数产品,托管 API 一直更便宜,直到你撑起认真的用量,常被估在每天 5000 万 token 或以上,或者直到数据驻留要求不计成本地逼你本地托管。
- 当你自托管时,像 vLLM 这样的推理引擎加上量化后的开源权重(Llama、Qwen、DeepSeek、Mistral 级)是标准的生产栈。
早期产品默认用托管 API。等用量或合规态势逼出这个问题时,再回头看自托管。我们在 便宜的 token 会改变你的 AI 架构里的什么 中更深入地谈了架构影响。
怎样不再为模型用不上的 token 付钱?
浪费上下文的问题在这里解决,缓存之后最大的结构性节省也在这里。
- 语义缓存。存下请求与响应对,对语义相似的查询返回缓存的答案。命中时,你完全省下那次模型调用。GPTCache 和基于 Redis 的缓存这类工具,在高重复工作负载上报告了约 70% 的降本。
- 上下文压缩。带 agent 的工作流和编码工作流每次调用都重发同样的文件、日志和历史。一层压缩把它削到这一步真正需要的部分。这个领域的开源工具,例如 lean-ctx 和 RTK(Rust Token Killer),坐在你的 agent 和模型之间,在你付费之前削减输入 token。原则比具体工具更重要:给模型发去最小的正确上下文,而不是你的整个工作区。
- 推理层的 KV 缓存压缩。如果你自托管,KV 缓存的驱逐和量化技术能削减长上下文的显存和算力成本。这是给自托管团队的旋钮,不是给 API 使用者的。
这些事该按什么顺序做?
我们按部就班走的优先级清单,最便宜、风险最低的排在最前:
- Prompt 缓存。把 prompt 重排成稳定前缀在前。没有质量风险,节省很大。
- 异步工作走批处理。把一切能容忍延迟的搬到半价的批处理端点。
- 带升级的路由。便宜默认,按置信度升级到 frontier。跟踪升级率。
- 把模型选对档位。用你的任务去评估开源权重和中国 frontier 模型。凭跑通的评估来换,而不是凭基准标题。
- 压缩上下文。对重复做语义缓存,对每次调用的上下文做压缩。
- 只在用量上来时自托管。等用量或合规逼出来再把大部分搬进自己家,别提前。
- 搭起评估框架。上面没有一项在没有它时能安全上线。是它告诉你更便宜的路径守住了质量线。见 SDLC。
第一到第三步通常在第一周就交付大部分节省,且不动架构。第四到第六步是你把它复利放大的地方。
最终思考
2026 年降低 LLM 成本,不是去找那一个便宜模型。它是一摞按正确顺序叠加、相互复利的动作:缓存会重复的,批处理能等待的,把简单的大多数路由到便宜模型,按任务把模型选对档位(包括开源权重和中国 frontier 选项),压缩你真正发送的上下文,并且只在用量或合规逼你时才自托管。
诚实的部分:上面每一项都只有建立在评估框架之上才安全。没有评估,你无法判断更便宜的路径是否守住了质量,而一条悄悄掉质量的更便宜路径,是所有错误里最贵的那个。这周先从缓存和批处理开始,用一个评估去验证路由,并每隔几个月复核一次模型组合。价格曲线没有停止移动,你的技术栈也不该停。
想要对你的 AI 成本栈来个第二意见?
预约免费咨询