RAG
Retrieval-Augmented Generation
Injiziert zur Laufzeit relevanten Kontext aus deinen eigenen Daten in den LLM-Prompt, damit das Modell aus deinem Wissen antwortet, nicht aus seinen Trainingsdaten.
RAG ist die Architektur, die einem LLM erlaubt, Fragen zu Daten zu beantworten, auf denen es nie trainiert wurde. Mechanik: Frage des Nutzers nehmen, die relevantesten Chunks aus deinem Korpus per Vector-Search, Keyword-Search oder Hybrid abrufen, in den Prompt packen, Modell antworten lassen.
Der Grund, warum RAG existiert: Ein Modell auf privaten Daten zu trainieren ist teuer, langsam und veraltet sobald die Daten sich ändern. RAG umgeht das, indem es die Daten als Laufzeit-Kontext behandelt. Der Trade-off: Retrieval-Qualität wird der Engpass. Ein Modell mit schlechtem Kontext produziert selbstbewusst falsche Antworten.
Unsexy Wahrheit zu RAG: 80 % der Arbeit ist gutes Retrieval (Chunking, Embeddings, Reranking, Hybrid Search), 20 % das Modell selbst. Anbieter, die RAG als Ein-Klick-Feature pitchen, pitchen den einfachen Teil."