TECHNOLOGIE

Context Window

Die maximale Textmenge, die ein LLM auf einmal berücksichtigt, gemessen in Token. Der Grund, warum nicht die ganze Wissensbasis in jeden Prompt passt.

Zuletzt geprüft: 2026-06-02 vonKevin Riedl wiki ↗

Das Context Window ist das Arbeitsgedächtnis des Modells für eine einzelne Anfrage, gemessen in Token (ein Token ist grob drei Viertel eines Wortes). Alles muss hineinpassen: dein System-Prompt, der Gesprächsverlauf, alle Dokumente, die du einfügst, und die Antwort, die das Modell erzeugt. Überschreitest du das Fenster, kann das Modell den Überlauf schlicht nicht sehen.

“Pack einfach alles in den Prompt” scheitert aus drei Gründen, selbst wenn das Fenster groß ist. Erstens Kosten: die meisten Anbieter rechnen pro Token ab, ein riesiges Dokument in jedem Aufruf vervielfacht also die Rechnung. Zweitens Latenz: mehr Token bedeuten eine langsamere Antwort. Drittens, am wenigsten offensichtlich, Qualität, Modelle achten weniger zuverlässig auf Information, die mitten in einem sehr langen Kontext vergraben ist, mehr ist also nicht immer besser. Ein fokussierter Prompt schlägt oft einen aufgeblähten.

Genau deshalb existiert RAG. Statt deinen ganzen Korpus ins Fenster zu kippen, rufst du nur die paar relevanten Chunks pro Frage ab und schickst nur diese. Du bekommst den Nutzen einer großen Wissensbasis, ohne dafür zu zahlen, sie bei jeder Anfrage komplett zu verarbeiten. Das Context Window ist das Budget, Retrieval ist, wie du es klug ausgibst.

Praxisbeispiel für den “Lost in the Middle”-Effekt, der Teams überrascht: Ein Unternehmen fügt ein 40-seitiges Richtliniendokument in den Prompt ein und stellt eine Frage, deren Antwort auf Seite 20 steht. Das Modell liegt trotzdem falsch, obwohl das ganze Dokument technisch in seinem Fenster liegt, weil die Aufmerksamkeit für Material nachlässt, das mitten in einem langen Kontext vergraben ist. Dasselbe Modell antwortet korrekt, wenn man ihm nur die zwei relevanten Absätze gibt, die das Retrieval herausgezogen hat. Größere Fenster lösten das Problem nicht; besser zugeschnittener Kontext schon. Das ist der kontraintuitive Teil, den Founder übersehen, wenn ein neues Modell mit einer schlagzeilenträchtigen Fenstergröße erscheint: mehr Kapazität ist nicht mehr Verlässlichkeit.

Die praktische Erkenntnis: Behandle das Context Window als knappe Ressource mit Preisschild, nicht als Gratisraum. Genau um dieses Budget herum entwerfen wir bewusst unter Künstliche Intelligenz .

Was ist ein Context Window? +

Die maximale Textmenge, die ein LLM in einer Anfrage verarbeiten kann, gemessen in Token. System-Prompt, Gesprächsverlauf, eingefügte Dokumente und die erzeugte Antwort müssen alle hineinpassen.

Warum nicht einfach alles in den Prompt packen? +

Kosten, Latenz und Qualität. Mehr Token kosten mehr und antworten langsamer, und Modelle achten weniger zuverlässig auf Information, die in einem sehr langen Kontext vergraben ist. Ein fokussierter Prompt schlägt meist einen aufgeblähten.

Wie hängt das Context Window mit RAG zusammen? +

RAG existiert, um es zu verwalten. Statt deinen ganzen Korpus ins Fenster zu laden, rufst du pro Frage nur die relevanten Chunks ab und bekommst so den Nutzen einer großen Wissensbasis, ohne jedes Mal alles verarbeiten zu zahlen.

Häufige Fragen