TECHNOLOGIE

Context Window

Die maximale Textmenge, die ein LLM auf einmal berücksichtigen kann, gemessen in Token, und der Grund, warum du nicht einfach deine ganze Wissensbasis in jeden Prompt einfügen kannst.

Zuletzt geprüft: 2026-06-02 vonKevin Riedl wiki ↗

Das Context Window ist das Arbeitsgedächtnis des Modells für eine einzelne Anfrage, gemessen in Token (ein Token ist grob drei Viertel eines Wortes). Alles muss hineinpassen: dein System-Prompt, der Gesprächsverlauf, alle Dokumente, die du einfügst, und die Antwort, die das Modell erzeugt. Überschreitest du das Fenster, kann das Modell den Überlauf schlicht nicht sehen.

“Pack einfach alles in den Prompt” scheitert aus drei Gründen, selbst wenn das Fenster groß ist. Erstens Kosten: die meisten Anbieter rechnen pro Token ab, ein riesiges Dokument in jedem Aufruf vervielfacht also die Rechnung. Zweitens Latenz: mehr Token bedeuten eine langsamere Antwort. Drittens, am wenigsten offensichtlich, Qualität, Modelle achten weniger zuverlässig auf Information, die mitten in einem sehr langen Kontext vergraben ist, mehr ist also nicht immer besser. Ein fokussierter Prompt schlägt oft einen aufgeblähten.

Genau deshalb existiert RAG. Statt deinen ganzen Korpus ins Fenster zu kippen, rufst du nur die paar relevanten Chunks pro Frage ab und schickst nur diese. Du bekommst den Nutzen einer großen Wissensbasis, ohne dafür zu zahlen, sie bei jeder Anfrage komplett zu verarbeiten. Das Context Window ist das Budget, Retrieval ist, wie du es klug ausgibst.

Die praktische Erkenntnis: Behandle das Context Window als knappe Ressource mit Preisschild, nicht als Gratisraum. Genau um dieses Budget herum entwerfen wir bewusst unter Künstliche Intelligenz.

// FAQ

Häufige Fragen

Häufige Fragen

Die maximale Textmenge, die ein LLM in einer Anfrage verarbeiten kann, gemessen in Token. System-Prompt, Gesprächsverlauf, eingefügte Dokumente und die erzeugte Antwort müssen alle hineinpassen.
Kosten, Latenz und Qualität. Mehr Token kosten mehr und antworten langsamer, und Modelle achten weniger zuverlässig auf Information, die in einem sehr langen Kontext vergraben ist. Ein fokussierter Prompt schlägt meist einen aufgeblähten.
RAG existiert, um es zu verwalten. Statt deinen ganzen Korpus ins Fenster zu laden, rufst du pro Frage nur die relevanten Chunks ab und bekommst so den Nutzen einer großen Wissensbasis, ohne jedes Mal alles verarbeiten zu zahlen.