Wenn du 2024 ein KI-Produkt architektiert hast, hast du die halbe Engineering-Zeit damit verbracht, den Preis von Tokens zu verstecken. Aggressives Retrieval, brüchige Summarisation, Model-Routing für jeden Call. 2026 ist der Frontier-Klasse-Modell-Preis pro Million Tokens grob ein Fünftel dessen, was er vor zwei Jahren war. Das ändert die Mathematik fast jeder Designentscheidung, die wir gemacht haben. Dieser Post ist das, was wir jetzt tatsächlich in Kundenarchitekturen umverdrahten, mit einer Seite-an-Seite-Kostentabelle und einer Liste konkreter Moves.
Geschrieben aus Wavects Engagement-Historie über KI-Produktbuilds hinweg. Zahlen in der Tabelle sind illustrativ basierend auf öffentlichen Preistrends, keine anbieter-spezifischen Commitments.
Rebuildst du deinen KI-Stack?
Kostenloses Erstgespräch buchenFür Frontier-Klasse-Modelle bei den großen Providern liegt der Per-Token-Listenpreis 2026 grob 70 bis 85 % unter der äquivalenten Klasse 2024, je nach Tier. Mid-Tier-Modelle sind weiter gefallen. Cached-Input-Preise sind noch stärker gefallen. Was nicht gefallen ist: Latenz bei hoher Concurrency, Egress, Vektor-Datenbank-Hosting und die menschlichen Kosten zum Bau von Evals. Deine Rechnung sank also, dein Architektur-Hebel stieg, aber dein Engineering-Urteil zählt mehr, nicht weniger.
Grobe illustrative Zahlen, normalisiert pro 1M Tokens, Frontier- und Mid-Tier-Klassen. Behandle als richtungsweisend, nicht als Quote.
| Modell-Klasse | 2024 Input | 2026 Input | 2024 Output | 2026 Output |
|---|---|---|---|---|
| Frontier Reasoning | $15 | $3 | $75 | $15 |
| Frontier General | $3 | $0,60 | $15 | $3 |
| Mid-Tier General | $0,50 | $0,10 | $1,50 | $0,30 |
| Small / Fast | $0,15 | $0,03 | $0,60 | $0,10 |
| Cached Input | n/a | $0,30 | n/a | n/a |
Die interessante Zeile ist "Frontier Reasoning". Ein tiefer Agent-Loop, der 2024 0,40 $ pro Task kostete, kostet heute eher 0,08 $. Das ändert, welche Produkte tragfähig sind.
Wir haben aufgehört, Retrieval für kleine Korpora überzu-engineeren. Wir haben aufgehört, jeden Call durch einen "günstigen Default" zu routen, wenn die Qualitätslücke zählte. Wir haben aufgehört, Custom-Summarisierer für winzige Kontextfenster zu schreiben.
Acht konkrete Moves, die wir 2026 in Kundenarbeit anwenden.

"Deine KI-Architektur sollte die Preiskurve tracken, nicht am Tag einfrieren, an dem du angefangen hast zu bauen."
Ja, aber die Schwelle hat sich verschoben. RAG ist immer noch die richtige Antwort, wenn der Korpus groß ist (mehrere Millionen Tokens), wenn Aktualität zählt (Wissen, das täglich wechselt), wenn Access Control Row-Level-Enforcement braucht oder wenn du eine klare Zitat-Spur brauchst. Für alles andere ist Long Context meist einfacher. Wir haben 2026 ein Wissensprodukt umgebaut, indem wir den Großteil des Retrieval-Layers gelöscht und auf strukturierte Long-Context-Prompts gewechselt sind. Die Eval-Scores stiegen und die Wartungslast sank. Engagements wie PromptID und Quivr haben geprägt, wie wir diese Linie ziehen.
2024 dominierte Inferenz die Rechnung. 2026 verteilt sie sich gleichmäßiger auf Inferenz, gehostete Vektor- oder Such-Infrastruktur, Observability- und Eval-Runs und einen nicht-trivialen Posten für Human-Review bei Agent-Produkten. Ein typisches mittelgroßes KI-Produkt, an dem wir arbeiten, hat Inferenz bei 30 bis 45 % der Gesamt-Run-Kosten, runter von 70 bis 80 % vor zwei Jahren. Die Implikation: Inferenz weiter zu optimieren hat abnehmenden Ertrag. Optimiere stattdessen den Eval-Loop und die Tool-Fläche.
Open-Weight-Modelle haben 2026 viel der Qualitätslücke geschlossen. Für High-Volume-, Latenz-sensitive oder Daten-Residency-sensitive Workloads sind selbst gehostete Open Weights jetzt ehrlich wettbewerbsfähig. Der Haken: Du übernimmst die Ops-Last, die Eval-Last und den Upgrade-Cadence. Wir defaulten zu gehosteten APIs für frühe Produkte und überdenken Self-Hosting, sobald das Volumen es rechtfertigt, meist nördlich von 50 Millionen Tokens pro Tag.
Wir nutzen immer noch agilen Festpreis für gescopte Deliverables. Was sich geändert hat, ist die Run-Cost-Prognose. Wir modellieren erwartetes Token-Volumen, Cache-Hit-Verhältnis, Eskalationsrate und Batch-Anteil. Ein modernes KI-Feature für einen Mid-Market-Kunden läuft typischerweise bei 30 bis 60 % der Inferenz-Kosten, die wir 2024 für dieselbe Qualitätslatte angeboten hätten. Der Engineering-Aufwand hat sich vom Kostenverstecken zu Quality Engineering verschoben.
Tokens sind günstig geworden. Das ist keine taktische Änderung, es ist eine strukturelle. Die Teams, die 2026 gewinnen, sind die, die aufhören, für die 2024er-Rechnung zu optimieren, und anfangen, für Produkttiefe zu optimieren: tiefere Agent-Loops, längerer Kontext, reichere Tool-Flächen und eine ernsthafte Eval-Disziplin. Die Teams, die verlieren, sind die, die das Frontier-Modell noch als Luxusgut behandeln und alles durch ein Mid-Tier routen, um sich sicher zu fühlen. Wenn du deine KI-Architektur vor Mitte 2025 gebaut hast, ist ein struktureller Review die Mühe wert. Die meisten cleveren Workarounds, die du geschrieben hast, sind jetzt Verbindlichkeiten. Die gute Nachricht: Sie aufzuräumen schrumpft meist die Codebase, senkt die Rechnung und hebt die Eval-Scores zugleich. Das ist der seltene Dreifach-Gewinn in Software, und er liegt für die nächsten 12 Monate auf dem Tisch, während der Rest des Markts noch darüber streitet.
Rebuildst du deinen KI-Stack?
Kostenloses Erstgespräch buchen