Context Window
Die maximale Textmenge, die ein LLM auf einmal berücksichtigen kann, gemessen in Token, und der Grund, warum du nicht einfach deine ganze Wissensbasis in jeden Prompt einfügen kannst.
Das Context Window ist das Arbeitsgedächtnis des Modells für eine einzelne Anfrage, gemessen in Token (ein Token ist grob drei Viertel eines Wortes). Alles muss hineinpassen: dein System-Prompt, der Gesprächsverlauf, alle Dokumente, die du einfügst, und die Antwort, die das Modell erzeugt. Überschreitest du das Fenster, kann das Modell den Überlauf schlicht nicht sehen.
“Pack einfach alles in den Prompt” scheitert aus drei Gründen, selbst wenn das Fenster groß ist. Erstens Kosten: die meisten Anbieter rechnen pro Token ab, ein riesiges Dokument in jedem Aufruf vervielfacht also die Rechnung. Zweitens Latenz: mehr Token bedeuten eine langsamere Antwort. Drittens, am wenigsten offensichtlich, Qualität, Modelle achten weniger zuverlässig auf Information, die mitten in einem sehr langen Kontext vergraben ist, mehr ist also nicht immer besser. Ein fokussierter Prompt schlägt oft einen aufgeblähten.
Genau deshalb existiert RAG. Statt deinen ganzen Korpus ins Fenster zu kippen, rufst du nur die paar relevanten Chunks pro Frage ab und schickst nur diese. Du bekommst den Nutzen einer großen Wissensbasis, ohne dafür zu zahlen, sie bei jeder Anfrage komplett zu verarbeiten. Das Context Window ist das Budget, Retrieval ist, wie du es klug ausgibst.
Die praktische Erkenntnis: Behandle das Context Window als knappe Ressource mit Preisschild, nicht als Gratisraum. Genau um dieses Budget herum entwerfen wir bewusst unter Künstliche Intelligenz.