Billiger pro Token. Teurer pro Antwort.
Claude Sonnet 5 startete zu einem niedrigeren Preis pro Token als Opus 4.8. Dann ließ Artificial Analysis die komplette Intelligence-Index-Benchmark-Suite laufen, und Sonnet 5 beendete den Durchlauf mit höheren Gesamtkosten pro Aufgabe als Opus, rund 2,29 US-Dollar gegenüber 1,99, vor Aktionspreisen (1).
Lies das noch einmal. Das billigere Modell erzeugte die größere Rechnung.
Fast niemand liest die Zahl pro Million Token und stellt die Frage, die die Rechnung tatsächlich entscheidet: wie viele Token verbrennt dieses Modell, um zur richtigen Antwort zu kommen.
Ein Modell, das im Kreis denkt, ist nicht billig. Es ist billig am Anfang.
Die Teams, die ihre Ausgaben gerade jetzt optimieren, achten auf die Gesamtkosten pro erledigter Aufgabe, nicht auf den Listenpreis pro Token. Alle anderen sind kurz davor, eine sehr verwirrende Rechnung zu öffnen.
Die Zahl, die niemand einpreist: Tokens bis zur Antwort
Der Preis pro Million Token ist der Aufkleber im Schaufenster. Er nennt dir den Tarif. Er sagt dir nichts darüber, wie weit das Modell fährt, um ans Ziel zu kommen.
Hinter einem einzigen API-Aufruf verstecken sich zwei Kosten:
- Der Stückpreis. Dollar pro Million Input- und Output-Token. Das ist es, was jede Preisseite bewirbt.
- Die Token-Menge. Wie viele Token das Modell tatsächlich verbraucht, um deine Aufgabe abzuschließen, inklusive Reasoning, Wiederholungen und Tool-Aufrufen, die du nie zu sehen bekommst.
Deine Rechnung ist das Produkt aus beidem, nicht nur aus dem ersten. Artificial Analysis nennt die ehrliche Zahl Kosten pro Aufgabe: die gewichteten Durchschnittskosten, um eine Benchmark-Aufgabe abzuschließen, die die tatsächlich von einem Modell verbrauchten Token einpreist statt eines standardisierten Tarifs. Wie sie es ausdrücken: Modelle, die längere Antworten oder mehr Reasoning-Token produzieren, haben höhere Kosten pro Aufgabe, selbst bei identischen Preisen pro Token (2).
Senke den Stückpreis um 40 Prozent und lass den Token-Verbrauch um mehr als das steigen, und du hast das Modell billiger aussehen lassen, während du es teurer gemacht hast.
Was bei Sonnet 5 tatsächlich passiert ist
Der Start von Sonnet 5 ist die saubere Fallstudie, denn Anthropic hat den Preis tatsächlich gesenkt und das Modell kostete im Betrieb trotzdem mehr.
Auf dem Papier ist Sonnet 5 das Schnäppchen. Die Standardtarife liegen bei 3 US-Dollar pro Million Input-Token und 15 pro Million Output, mit einem Einführungspreis von 2 und 10, der bis zum 31. August 2026 läuft. Opus 4.8 liegt bei 5 und 25 (3). Laut Aufkleber ist Sonnet rund 40 Prozent billiger pro Token und im Einführungsfenster etwa 60 Prozent billiger.
Dann lässt du es laufen. Artificial Analysis stellte fest, dass Sonnet 5 bei maximalem Reasoning-Aufwand pro Intelligence-Index-Aufgabe etwa 40 Prozent mehr Output-Token verbrauchte als Sonnet 4.6 und rund dreimal so viele agentische Durchläufe. Bei Evaluierungen von Wissensarbeit verbrannte es bei maximalem Aufwand etwa sechsmal mehr Durchläufe als bei niedrigem Aufwand. Die Leistungssteigerungen kamen über längere Reasoning-Ketten und mehr Tool-Aufrufe zustande, nicht über Effizienz (1).
Leg darauf noch eine zweite, leisere Änderung: Sonnet 5 kommt mit einem aktualisierten Tokenizer, der denselben Text auf etwa das 1,0- bis 1,35-Fache an Token abbildet wie die vorherige Generation (4). Derselbe Prompt wird also als mehr Token gezählt, bevor das Modell über irgendetwas nachgedacht hat.
Niedrigerer Tarif, mehr Token pro Antwort, mehr Token pro Texteinheit. Die drei kombinieren sich zu dem Ergebnis, das niemand auf eine Folie gebracht hat: über die gesamte Suite hinweg kam Sonnet 5 teurer pro erledigter Aufgabe heraus als das Modell, das es unterbieten sollte.

"Ein billigerer Stückpreis bei einem Modell, das im Kreis denkt, ist kein Rabatt. Es ist eine aufgeschobene Rechnung. Die Teams, die gewinnen, lesen den ganzen Beleg, nicht den Preis im Regal."
Die Zahlen hier sind eine Momentaufnahme aus 2026 aus öffentlichen Benchmarks und Anbieterpreisen. Tarife, Tokenizer und Modellverhalten bewegen sich schnell, und deine Arbeitslast ist nicht die Benchmark-Suite. Prüfe die Zahlen erneut und, wichtiger noch, miss deine eigenen, bevor du dich festlegst.
Warum Reasoning-Modelle den Listenpreis sprengen
Das ist kein Sonnet-Problem. Es ist ein Reasoning-Modell-Problem, und es ist strukturell.
Reasoning-Modelle verdienen sich ihre Punkte, indem sie denken, bevor sie antworten. Dieses Denken sind Token: internes Reasoning, Selbstüberprüfung, Tool-Aufrufe und Wiederholungen, für die du meistens zahlst und die du nie liest. Die Token-Effizienz eines Modells, die Anzahl der Token, die es braucht, um eine Aufgabe tatsächlich abzuschließen, ist ein entscheidenderer Kostenfaktor als sein plakativer Preis (5).
Die Kluft zwischen Modellen kann enorm sein. In einem öffentlichen Reasoning-Benchmark erzeugte ein kleines Reasoning-Modell mehr als zehnmal so viele Completion-Token wie ein vergleichbares Nicht-Reasoning-Modell bei denselben Problemen (6). Dieselbe Aufgabe, dieselbe erwartete Antwort, eine Größenordnung mehr Token, um dorthin zu kommen.
Ein Modell kann also sein:
- Billiger pro Token und teurer pro Aufgabe, weil es länger denkt.
- Teurer pro Token und billiger pro Aufgabe, weil es die Antwort in einem Durchgang erreicht statt in fünf.
Der Listenpreis und die echten Kosten sind nicht nur unterschiedliche Zahlen. Sie können in entgegengesetzte Richtungen zeigen.
Kosten pro Aufgabe, definiert
Wenn du eine Kennzahl aus diesem Artikel mitnimmst, dann diese.
Kosten pro erledigter Aufgabe sind die Gesamtausgaben über jeden Token und jeden Durchlauf hinweg, um eine echte Aufgabe bis zu deinem Qualitätsmaßstab zu erledigen. Nicht pro Token. Nicht pro Anfrage. Pro fertiger, akzeptabler Antwort.
Sie erfasst, was der Listenpreis verbirgt:
- Reasoning-Token. Das Denken, das das Modell erledigt, bevor es antwortet.
- Antwortlänge. Ein weitschweifiges Modell verrechnet mehr, selbst zum selben Tarif.
- Agentische Durchläufe. Jeder Tool-Aufruf und jede Nachfrage ist ein weiterer bepreister Hin- und Rückweg.
- Wiederholungen. Falsche Antworten, die du erneut laufen lassen musst, sind nicht gratis.
- Tokenizer-Drift. Derselbe Text kann auf einem neueren Modell als mehr Token gezählt werden.
Ein Modell, das am Anfang billig und am Ende teuer ist, fällt bei diesem Maßstab durch. Genau darum geht es, wenn man ihn verwendet.
Willst du eine ehrliche Einschätzung, welches Modell für deine Arbeitslast tatsächlich am günstigsten ist?
Book Free ConsultationSo misst du die Kosten pro erledigter Aufgabe
Du brauchst kein Forschungslabor. Du brauchst deine eigenen Aufgaben und eine Waage. Hier ist der Prozess, den wir durchlaufen, bevor wir einem Kunden ein Modell empfehlen.
- Definiere die Aufgabe und den Qualitätsmaßstab. Nicht "fasse das zusammen", sondern "erstelle eine Zusammenfassung, die dieses Bewertungsraster besteht". Eine Aufgabe ist erst abgeschlossen, wenn sie den Maßstab erfüllt, sonst gehört die Wiederholung in die Kosten.
- Baue ein kleines Eval-Set aus echter Arbeit. Zwanzig bis fünfzig repräsentative Aufgaben aus deinem tatsächlichen Produkt schlagen jeden öffentlichen Benchmark, denn der Benchmark ist nicht deine Arbeitslast.
- Lass jedes Kandidatenmodell bis zum Abschluss laufen. Dieselben Aufgaben, dieselben Einstellungen, mit denen du ausliefern würdest. Lass es denken, Tools aufrufen und wiederholen, wie es das in der Produktion tun wird.
- Zähle jeden Token bis zur Fertigstellung. Input, Output, Reasoning und jeden agentischen Durchlauf. Nutze die Token-Zählung des Anbieters statt einer Schätzung, denn Tokenizer unterscheiden sich zwischen Modellen.
- Preise den ganzen Weg ein, inklusive Fehlschläge. Multipliziere die Token mit dem echten Tarif, addiere die Kosten der Wiederholungen bei Aufgaben, die das Modell beim ersten Mal falsch gemacht hat. Diese Summe, geteilt durch die abgeschlossenen Aufgaben, sind deine Kosten pro erledigter Aufgabe.
Mach das einmal, und das Ranking kippt oft. Das Modell mit dem furchteinflößenden Preis pro Token kann das günstigste zum Fertigstellen sein, und das billig aussehende Modell kann dasjenige sein, das still und leise die Rechnung in die Höhe treibt.
Was das für die Modellwahl bedeutet
Die Lektion lautet nicht "wähle immer das teure Modell". Sie lautet "hör auf, nach dem Aufkleber zu wählen".
Ein paar Regeln, nach denen wir arbeiten:
- Passe das Modell zur Aufgabe an, nicht zur Preisliste. Ein leistungsfähiges Modell, das in einem Durchgang antwortet, kann pro Aufgabe billiger sein als ein schwächeres, das in Schleifen läuft. Leite einfache Arbeit mit hohem Volumen an billige Modelle und schwierige, mehrdeutige Arbeit an starke. Das komplette Routing-Playbook haben wir in wie du LLM-Token-Kosten 2026 senkst geschrieben.
- Stell am Aufwands-Regler. Bei Reasoning-Modellen explodieren die Kosten pro Aufgabe beim maximalen Aufwand. Nutze hohen Aufwand dort, wo Korrektheit es wert ist, und niedrigeren Aufwand für Routinearbeit, dann miss den Unterschied an deinem eigenen Eval.
- Achte auf die Anzahl der agentischen Durchläufe, nicht nur auf die Token. Jeder zusätzliche Tool-Aufruf und jede Wiederholung ist ein weiterer verrechneter Hin- und Rückweg. Ein Modell, das in drei Durchläufen fertig ist, kann eines schlagen, das in zehn fertig wird, selbst bei einem höheren Tarif.
- Lass die Zahlen neu laufen, wenn ein Modell aktualisiert wird. Eine neue Version kann den Tokenizer und das Reasoning-Verhalten auf einmal ändern, wie Sonnet 5 es tat. Das Kosten-Ranking des letzten Quartals ist nicht das dieses Quartals.
Der Preis pro Token ist die Marketingzahl. Die Kosten pro erledigter Aufgabe sind die Zahl, die auf deiner Rechnung landet. Optimiere die, die du tatsächlich zahlst.
Fazit
Sonnet 5 startete billiger und lief teurer. Das ist kein Zufall, es ist das, was passiert, wenn ein Reasoning-Modell länger denkt, um höher zu punkten, und du es nach dem Aufkleber bepreist hast. Die Lösung ist kein anderes Modell. Es ist eine andere Zahl: Gesamtkosten pro erledigter Aufgabe, gemessen an deiner eigenen Arbeit, inklusive Reasoning, Durchläufen und Wiederholungen.
Lies den ganzen Beleg. Die Teams, die das tun, zahlen bereits weniger für bessere Antworten. Die Teams, die es nicht tun, bekommen gleich eine sehr verwirrende Rechnung.
Willst du, dass wir die Kosten pro Aufgabe über verschiedene Modelle hinweg für dein Produkt benchmarken?
Book Free ConsultationReferences
- Artificial Analysis (2026) ‘Claude Sonnet 5: strong agentic performance at a higher cost per task.’ Kosten pro Intelligence-Index-Aufgabe (~$2.29 gegenüber ~$1.99 für Opus 4.8, ~$1.15 für Sonnet 4.6); ~40% mehr Output-Token und ~3x agentische Durchläufe gegenüber Sonnet 4.6 bei maximalem Aufwand. Verfügbar unter: https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost (Abgerufen: 2. Juli 2026).
- Artificial Analysis (2026) ‘Language Model Benchmarking Methodology.’ Definition der Kosten pro Aufgabe als gewichtete Durchschnittskosten, um eine Intelligence-Index-Aufgabe abzuschließen; längere Antworten und mehr Reasoning-Token erhöhen die Kosten pro Aufgabe bei identischen Preisen pro Token. Verfügbar unter: https://artificialanalysis.ai/methodology (Abgerufen: 2. Juli 2026).
- Anthropic (2026) ‘Models overview and pricing.’ Claude Sonnet 5 zu $3/$15 pro Million Token ($2/$10 als Einführungspreis bis zum 31. August 2026); Claude Opus 4.8 zu $5/$25. Verfügbar unter: https://platform.claude.com/docs/en/about-claude/models/overview (Abgerufen: 2. Juli 2026).
- Anthropic (2026) ‘Model migration guide.’ Claude Sonnet 5 nutzt einen aktualisierten Tokenizer, der denselben Text auf etwa das 1,0- bis 1,35-Fache an Token abbildet wie die vorherige Generation; mit Token-Zählung neu kalibrieren. Verfügbar unter: https://platform.claude.com/docs/en/about-claude/models/migration-guide (Abgerufen: 2. Juli 2026).
- CloudZero (2026) ‘LLM API pricing comparison.’ Die Token-Effizienz, die Anzahl der Token, die ein Modell braucht, um eine Aufgabe abzuschließen, ist ein kritischerer Kostenfaktor als der plakative Preis pro Token. Verfügbar unter: https://www.cloudzero.com/blog/llm-api-pricing-comparison/ (Abgerufen: 2. Juli 2026).
- Wang, L. et al. (2025) ‘NPPC: an ever-scaling reasoning benchmark for LLMs.’ Ein kleines Reasoning-Modell erzeugte bei denselben Aufgaben ungefähr eine Größenordnung mehr Completion-Token als ein vergleichbares Nicht-Reasoning-Modell. Verfügbar unter: https://arxiv.org/pdf/2504.11239 (Abgerufen: 2. Juli 2026).