把提示词渲染成图像，把 LLM 成本砍掉 60%：是天才，还是纯属荒诞？

要点速览

一个走红的工具 pxpipe 在请求到达模型之前，把请求中体积庞大、大多静态的部分，也就是系统提示词、工具文档、旧的历史和粘贴的代码，渲染成密集的 PNG 图像，因为一张图像是按它的像素尺寸计价，而不是按它含有多少文字。对于每个 token 能装更多字符的密集内容，这据称可以把 Claude Fable 5 的账单端到端降低 59% 到 70%，仓库展示了一个任务：作为文本 42.21 美元，渲染后 6.06 美元。这个想法有真实研究支撑，也就是 DeepSeek-OCR 的上下文光学压缩及后续工作，而不只是一个奇技淫巧。坑在于它有损且会无声地出错：模型会信心十足地读错精确字符串，在工具自己的测试中，回忆精确十六进制字符串时 Fable 得了 15 中的 13，Opus 得了 15 中的 0，所以 ID、哈希、密钥和精确数字都必须保持为文本。它还依赖模型、增加编码延迟，并且和提示词缓存相互争夺。把它当作一种定点优化，用于大而静态、只需大意的上下文，并跑在一个擅长读图的模型上，而不是默认设置，始终把精确的值保持为文本，并针对一个已缓存的基线来度量。这些数字出自工具作者本人，时间为 2026 年年中，投入之前请重新核对。

它为什么真的有效：定价的物理

文本和图像按相同的每 token 费率计费，但计数方式非常不同。

文本按内容分词。字符越多，token 越多，成本越高。而图像，Anthropic 是按像素面积定价的，用一个大致的公式 (宽 x 高) / 750 个 token，并且对计数设了上限（图像会被缩放，让长边保持在约 1568px，这让上限接近每张图 1,600 个 token）。关键在于：这个数字并不在意图里是一片空白的矩形，还是一堵文字的墙。

在真实的 Claude Code 流量上，pxpipe 测得代码和 JSON 这类密集内容每个图像 token 能装约 3.1 个字符，而每个文本 token 约 1.9 个字符。一旦你的文本密度超过每 token 约 19 个字符，把它渲染成图像就开始划算。一段作为文本要花 25k token 的内容，渲染后回来约 2.7k 图像 token。60% 这个标题就是这么来的。

这就是模型实际收到的、用来替代你文本的东西：

一堵密集的、去除空白后压缩的文字被渲染成单张图像，约 48k 个字符压进约 2.7k 个图像 token，顶部带有一条 OCR 指令横幅 — 约 48k 个字符的系统提示词与工具文档，作为文本约 25k token，在一页里渲染成约 2.7k 个图像 token。来源：pxpipe 仓库（MIT），仅作示意。

爆款版本略过的一个细节：因为每张图都被限制在接近 1,600 token，你无法把无限的上下文倒进一张巨大的画布。工具渲染的是许多页，而不是一张海报。节省是真的，但它来自把密集文本平铺到多张受限的图像上，而不是靠魔法。

这不是奇技淫巧，而是一个研究方向

那个反直觉的部分，也就是文字的图像可能比文字本身更便宜，并不是某个代理工具的花招。它是一个活跃的研究领域。

2025 年 10 月，DeepSeek 发表了 DeepSeek-OCR: Contexts Optical Compression，展示了一个视觉模型可以从一小组视觉 token 中解码文本，在压缩比低于 10 倍时以约 10 倍压缩保持约 97% 的 OCR 精度。Andrej Karpathy 借此提出，文本 token 或许是浪费的「历史包袱」，而给模型喂入文字的图像可能更高效。后续工作，例如 Text or Pixels? It Takes Half，也报告了视觉文本输入上类似的 token 节省。

所以这个想法是站得住脚的，长上下文的经济学也确实有意思。pxpipe 只是一次早期而激进的尝试，想在今天的商业 API 上把它变现，而模型还没被训练得能把这件事做好。而「模型还没被训练得能把这件事做好」，恰恰是麻烦开始的地方。

让它对大多数工作都显得荒诞的那个坑

把文本渲染成图像是有损的，而且损失是无声的。

当模型看错一个被渲染的字符时，它不会抛出错误，也不会报告低置信度。它会信心十足地编一个出来。pxpipe 自己的 README 诚实地记录了这一点：在一个大海捞针测试里，要求模型从密集渲染内容中回忆精确的 12 位十六进制字符串，Fable 5 得了 15 中的 13，而 Opus 得了 15 中的 0。README 描述了一个真实案例：模型从渲染的聊天历史里回忆一个人的名字，并且信心十足地记错了。

这就是全部风险，一句话概括：任何你需要逐字节准确取回的东西，都必须保持为文本。ID、哈希、密钥、精确的数字、准确的名字。pxpipe 正是出于这个原因，把最近的对话轮次和精确标识符作为文本保留在图像旁边。

标题还跳过了这几点：

它依赖模型。pxpipe 默认用 Fable 5 和 GPT-5.6，这些是最擅长读取密集渲染文本的模型。Opus 4.8 和 GPT-5.5 只能手动开启，因为它们更容易读错渲染的上下文。在一个模型上帮你省 60% 的技巧，在另一个模型上可能悄悄毁掉上下文。
它增加延迟。把大请求编码成 PNG 需要时间，而这发生在请求离开你的机器之前。
它和提示词缓存相互影响。你最大、最静态的上下文，也就是系统提示词和工具文档，恰恰是提示词缓存的理想对象，而缓存本就对重复 token 大幅打折。在 GPT 路径上 pxpipe 放弃了原生缓存标记。渲染上下文和缓存上下文瞄准的是同一批 token，所以诚实的比较应当针对一个正确缓存的基线，而不是一个天真的基线。

什么时候值得，什么时候会把你烧到

这不是一个是或否的问题。它是一个路由决策，和我们在选择模型时用的是同一套纪律。让技术去匹配负载。

适合渲染成图像	不要渲染这些
庞大、静态的系统提示词和工具文档	任何逐字节的东西：ID、哈希、密钥
只读的参考上下文和长文档	你要计算或引用的精确数字
折叠起来的、较旧的对话历史	模型必须精确推理的近期对话轮次
Fable 5 或其他强图像阅读者	路由到 Opus 或视觉较弱的负载
只需大意即可的大批量上下文	任何无声读错都不可接受的场景

如果你的负载是一大块庞大而稳定的指令，喂给一个大多只需要大意的 Fable 5 智能体，渲染可能是一次实打实的胜利。如果它是一个搬运精确数字和标识符的合规流程，同一个技巧就是一份无声的负债。

它在真实的成本栈里处于什么位置

把上下文渲染成图像是一根杠杆，而且不是我们会先拉的那一根。在动用一个有损技巧之前，通常是那些无聊的杠杆取胜，而且它们不会让你的数据冒险：

提示词缓存用于静态前缀，它是无损的，而且本就很大。
模型路由：便宜的模型做机械活，强的模型做判断。参见我们如何在 Fable、Opus、Sonnet 和 Haiku 之间路由工作。
衡量每完成一个任务的成本，而不是每 token 的价格，因为那才是落在你账单上的数字。参见每 token 更便宜，每个答案更贵。
一个网关用来集中管理回退、缓存和支出上限。参见我们的LLM 网关对比。
自托管或开放权重，当规模和数据驻留能够证明其合理时，详见在欧盟自托管 LLM 的真实成本。

把上下文渲染成图像处在这份清单激进的一端：潜在节省高，正确性风险真实，在更安全的杠杆都就位之后，值得在合适的负载上做一次试点。

"定价的物理是真的，研究也是认真的。但一个偶尔会编造哈希或名字的 60% 节省不是节省，而是被推迟的调试。渲染那些只需要大意的大批量上下文，把每一个精确的值都保持为文本，永远不要把它指向一个读不好图像的模型。"

常见问题

在生产中把上下文渲染成图像安全吗？

只对那些无声读错可以接受的上下文安全，比如庞大的静态指令，或送给擅长读图的模型的只读参考材料。它是有损的，所以把一切逐字节的东西（ID、哈希、密钥、精确数字）保持为文本。把它当作在合适负载上的定点优化，而不是默认设置。

渲染上下文会破坏提示词缓存吗？

它会和缓存争夺。你最大的静态上下文也正是提示词缓存的最佳对象，而缓存是无损的。在 GPT 路径上 pxpipe 放弃了原生缓存标记。所以要把渲染和一个正确缓存的基线比较，而不是和一个未缓存的比较，否则你会高估收益。

为什么 Opus 读渲染文本比 Fable 差？

这依赖模型。在 pxpipe 自己的十六进制回忆测试里，Fable 5 得了 15 中的 13，Opus 得了 15 中的 0，所以 pxpipe 默认用 Fable 5 和 GPT-5.6，把 Opus 设为手动开启。同一个在强图像阅读者上省钱的技巧，在较弱的模型上可能毁掉上下文。

这和 DeepSeek-OCR 是一回事吗？

底层想法相同，都是上下文的光学压缩，只是应用方式不同。DeepSeek-OCR 是一个被训练来从一小组视觉 token 中解码文本、达到约 10 倍压缩的模型。pxpipe 是一个代理，它为现有的、并非专门为此训练的商业 API 渲染你的上下文，损失也因此出现。

它实际能省多少？

pxpipe 仓库声称在 Fable 5 上把端到端账单降低 59% 到 70%，并展示了一个演示任务：文本 42.21 美元，渲染后 6.06 美元。把它当作工具作者在自己负载上的数字，然后在你自己的负载上、针对一个已缓存的基线重新测量。

最终思考

那么，天才还是荒诞？两者都是。机制是真的，图像 token 按像素计价，认真的研究也指向同一个方向。但把它硬套到没有为此训练过的模型上，是用金钱去换无声的错误，而无声的错误是最昂贵的一种。

像使用任何激进优化那样使用它：有意为之，用在合适的负载上，把精确的值保持为文本，并让更安全的杠杆，也就是缓存、路由、度量，先运转起来。这样做，渲染大批量上下文就是一把利器。到处开启它，它迟早会递给你一个你完全没料到的、信心十足的错误答案。