Was ein interner KI-Assistent in der DACH-Region wirklich kostet (2026)

Eine Führungskraft stellt eine einfache Frage: Was kostet ein interner KI-Assistent über unsere Firmendokumente eigentlich pro Person und Monat? Die Antwort fällt meist in eine von zwei wenig hilfreichen Kategorien. Entweder eine erschreckende fünfstellige Zahl, die von einem self-hosted GPU-Cluster ausgeht, den niemand braucht, oder ein Achselzucken nach dem Motto "fast nichts, Tokens sind ja jetzt günstig". Beides ist falsch, denn die echten Kosten eines RAG-Assistenten über SharePoint, Confluence und Google Drive sind nicht eine große Position. Es sind mehrere kleine, plus der Teil, den alle vergessen: ihn am Laufen zu halten.

Engineering- und Prozess-Perspektive, kein Vendor-Pitch. Hier geht es darum, KI intern auszurollen, ein anderer Job als ein KI-Produkt für deine Kunden zu bauen; die interne Setup-Seite machen wir unter AI Enablement. Die Zahlen unten sind Richtwerte aus öffentlichen 2026er-Preisen, und deine Zahlen werden abweichen. Prüfe aktuelle Preise erneut, bevor du budgetierst.

Eine echte Zahl für dein Setup?

Kostenloses Erstgespräch buchen

Was treibt die Kosten eines internen KI-Assistenten wirklich?

Fast alle starren auf die LLM-Rechnung, und die ist bei einem internen Assistenten selten die größte Zahl. Die Kosten werden von drei Dingen bestimmt, die du steuerst, bevor ein einziger Token ausgegeben wird:

Wie viele Leute ihn nutzen, und wie intensiv. Zehn Power-User mit 30 Anfragen pro Tag kosten mehr als 200 Gelegenheitsnutzer, die ihn zweimal pro Woche öffnen. Die relevante Einheit sind Anfragen pro Tag, nicht Köpfe.
Wie viel er zum Antworten lesen muss. Jede Antwort zieht abgerufene Dokument-Chunks in den Prompt. Stopf zehn Seiten Kontext in jeden Call, und deine Input-Token-Rechnung vervielfacht sich, obwohl die Frage einzeilig war.
Wie frisch der Index sein muss. Dokumente im Moment ihrer Änderung neu zu embedden kostet mehr als ein nächtlicher Sync. Das meiste interne Wissen ändert sich nicht minütlich, und das ist eine Einsparung, die die meisten Teams liegen lassen.

Bring diese drei Annahmen zuerst zu Papier. Sie bewegen die Monatsrechnung stärker als jede Vendor-Wahl, die du später triffst.

Was sind die Kostenpositionen, Zeile für Zeile?

Hier ist der vollständige Satz an Positionen für einen selbst betriebenen RAG-Assistenten, mit Richtwerten für 2026. Behandle die Zahlen als Momentaufnahme öffentlicher Preise, nicht als Quote, und prüfe vor dem Commit erneut.

Komponente	Was es ist	Grobe Monatskosten	Anmerkungen
Embeddings (initial + Updates)	Deine Docs in Vektoren verwandeln, damit sie durchsuchbar sind	~$0 bis $30	Das einmalige Bulk-Embed ist günstig. OpenAI text-embedding-3-small liegt bei rund $0,02 pro 1M Tokens, das große Modell bei rund $0,13. Ein mittelgroßer Korpus kostet einstellige Dollar zum einmaligen Embedden, danach nahezu null für tägliche Deltas.
Vektor-Datenbank	Diese Vektoren speichern und durchsuchen	~$0 bis $150+	Free-Tiers decken einen Prototyp ab. Managed-Production-Tiers (Pinecone, Qdrant Cloud, Weaviate Cloud) starten oft bei rund $50 bis $150/Monat bei moderater Skalierung; ein self-hosted Qdrant auf deiner eigenen VM kann günstiger sein, auf Kosten der Ops.
LLM-Antwort-Tokens	Das Modell, das jede Antwort aus dem abgerufenen Kontext schreibt	~$20 bis ein paar hundert	Die variable Position. Bestimmt durch Anfragen/Tag mal Kontextgröße mal Modellpreis. Ein Mid-Tier-Modell plus enger Kontext hält das klein; jede Anfrage an ein Frontier-Modell mit aufgeblähtem Kontext zu routen, lässt es explodieren.
Retrieval + Orchestrierung	Der Kitt: Query-Handling, Reranking, Permission-Filtering	~$0 bis $40	Größtenteils dein eigener Compute. Ein optionaler Reranker fügt geringe Kosten pro Query hinzu; permission-aware Retrieval kostet Latenz, nicht viel Geld.
Hosting	App-Server, API-Gateway, Logs, Monitoring	~$20 bis $100	Ein kleiner Container plus ein managed Gateway. Moderat und flach, bis du auf mehr User skalierst.
Wartung	Korrekt halten: Connector-Pflege, Eval-Läufe, Modell-Upgrades	Die echte Zahl	Keine SaaS-Position. Es ist Entwicklerzeit, und über ein Jahr übersteigt sie meist jede Zeile darüber. Das ehrliche Budget setzt hier eine wiederkehrende Zahl an.

Achte auf das Muster. Die Infrastruktur-Zeilen sind 2026 überraschend günstig. Die Kosten, die entscheiden, ob das Projekt sich lohnt, stehen in der letzten Zeile, und sie ist die, die keine Vendor-Quote enthält.

"Die Vektor-DB und die Tokens sind der günstige Teil. Der teure Teil ist der Entwickler, der die Antworten korrekt hält, nachdem sich die Dokumente geändert haben. Budgetiere das ein, sonst verrottet das Projekt."

Build oder Buy: Was ist wirklich günstiger?

Die fertigen "KI über deine Wissensbasis"-Produkte nennen einen Preis pro Sitz, oft im Bereich eines bezahlten Produktivitäts-Sitzes. Das ist sauber und planbar, und für ein kleines Team mit generischen Dokumenten kann es die richtige Wahl sein. Der Haken zeigt sich an zwei Stellen: Du zahlst pro Sitz, egal ob ein User einmal im Monat oder fünfzig Mal am Tag anfragt, und dein Daten-Routing und deine Retrieval-Logik sind das, was der Vendor entschieden hat.

Ein selbst betriebenes Setup dreht das um. Die Kosten pro Query sind niedrig und du zahlst nur, was läuft, aber du trägst den Bau und die Wartung. Der Break-even hängt nicht allein an der Sitzzahl, sondern an Kontrolle. Sobald du permission-aware Retrieval brauchst, das deine SharePoint- und Confluence-Zugriffsregeln spiegelt, oder die Daten deine Infrastruktur nicht verlassen dürfen, ist der Preis pro Sitz von der Stange nicht mehr die ganze Geschichte. Tiefer in die Rollout-Entscheidung gehen wir in wie du KI intern ausrollst, ohne Shelfware zu produzieren.

Wo treibt DACH-Datenresidenz die Kosten?

Für ein DACH-Unternehmen ist die Frage selten Capability und fast immer, wo die Daten hingehen. Personenbezogene Daten, Kundendaten und interne Dokumente unter DSGVO und EU AI Act dürfen meist nicht an einen Modell-Endpoint, der außerhalb der EU verarbeitet. Diese Anforderung treibt die Kosten an ein paar konkreten Stellen, von denen keine ruinös ist, wenn du sie einplanst:

EU-Region-Modell-Endpoints. Die großen Provider bieten EU-Datenresidenz-Optionen (etwa Azure-OpenAI-Data-Zone-Deployments in Sweden Central oder Germany West Central). Die Verarbeitungskosten liegen grob vergleichbar zum Standardpreis; der Aufschlag für eine EU-Region, wo einer anfällt, ist typischerweise moderat statt ein Vielfaches.
EU-gehostete Vektor-DB und App. Vektor-DB und App-Server an eine EU-Region zu binden, ist eine Konfigurationsentscheidung, kein Preis-Tier. Es nimmt vor allem die günstigsten globalen Optionen vom Tisch, was das Hosting etwas anhebt.
Die Compliance-Arbeit selbst. Die echten Residenz-Kosten sind die Prüfung: der Auftragsverarbeitungsvertrag, das Verzeichnis von Verarbeitungstätigkeiten und die Bestätigung, dass kein Wartungszugriff von außerhalb der EU auf die Daten reicht. Das ist einmaliger Aufwand plus eine kleinere wiederkehrende Prüfung, und am Reißbrett ist es weit günstiger als nachträglich.

Von Anfang an gemacht, ist Residenz eine Designentscheidung, die die Zahl pro Sitz kaum bewegt. Nachträglich gemacht, ist es ein Umbau, und das ist die teure Variante.

Was kostet es pro Sitz und Monat, in einem durchgerechneten Beispiel?

Nur illustrativ. Deine Zahlen werden abweichen, und du solltest aktuelle Preise erneut prüfen, bevor du dem hier vertraust. Es geht um die Form der Rechnung, nicht um die exakte Zahl.

Nimm ein DACH-Unternehmen mit 50 aktiven Usern, jeder mit rund 10 Anfragen pro Tag (etwa 11.000 Anfragen pro Monat), über einen Korpus von ein paar hunderttausend Dokument-Chunks, beantwortet von einem Mid-Tier-Modell in EU-Region mit engem Retrieval (eine Handvoll Chunks pro Antwort), nächtlichem Re-Indexing und einer managed Vektor-DB.

Position	Richtwert Monatskosten
Embeddings (nächtliche Deltas nach dem einmaligen Bulk-Embed)	~$5 bis $20
Managed Vektor-DB (Production-Tier, EU-Region)	~$50 bis $150
LLM-Antwort-Tokens (Mid-Tier-Modell, enger Kontext)	~$60 bis $250
Hosting, Gateway, Monitoring	~$30 bis $100
Infrastruktur-Zwischensumme	~$150 bis $520 / Monat
Auf 50 Sitze verteilt	~$3 bis $10 pro Sitz / Monat
Wartung (Entwicklerzeit, amortisiert)	Die dominante Position über ein Jahr

Die laufende Infrastruktur eines 50-Sitz-Assistenten landet also oft im Bereich einstelliger Euro pro Sitz. Diese Zahl überrascht alle, die eine vierstellige Monatsrechnung erwartet haben. Der Haken ist die Zeile, die wir uns bis zuletzt aufgehoben haben: Wartung verwandelt ein günstig aussehendes Setup in echte Jahreskosten, und sie entscheidet, ob der Assistent vertrauenswürdig bleibt.

Wie hältst du ihn günstig, ohne ihn verrotten zu lassen?

Dieselbe Disziplin, die einen produktiven KI-Build bezahlbar hält, gilt hier. Die Kostenhebel, in der Reihenfolge, in der sie sich auszahlen:

Zum günstigsten fähigen Modell routen. Die meisten internen Fragen brauchen nicht dein teuerstes Modell. Reserviere das Frontier-Modell für die schwere Minderheit, und die Kosten pro Query fallen deutlich.
Weniger, aber präziser abrufen. Die größte einzelne Token-Verschwendung ist, zu viele Chunks in jede Antwort zu stopfen. Gutes Retrieval plus ein Reranker schickt dem Modell ein paar relevante Chunks, nicht zehn Seiten. Das ist der Hebel mit dem größten Effekt auf die LLM-Zeile.
Wiederholungen cachen. Interne Teams stellen dieselbe Handvoll Fragen weit öfter als kundenseitige Nutzer, was Caching ungewöhnlich wirksam macht. Die tiefere Token-Mechanik steht in wie du LLM-Token-Kosten 2026 senkst.
Nach Zeitplan neu indexieren, nicht bei jedem Tastendruck. Nächtlicher oder Near-Real-Time-Sync reicht für das meiste interne Wissen und hält die Embedding-Ausgaben nahe null.

Eine Demut-Anmerkung, die keine Kostentabelle einfängt: Ein günstiger Assistent, der still falsche Antworten gibt, ist das teuerste Ergebnis von allen. Du brauchst ein Eval-Set, eine Methode, um die Antwortqualität nach Dokumentänderungen zu messen, und jemanden, dessen Job es ist, ihn zu beobachten. Diese Wartungszeile ist kein optionales Polster. Sie ist der Unterschied zwischen einem Tool, dem das Team vertraut, und einem, das es nicht mehr öffnet. Dieselbe Disziplin hat sich in produktiver KI-Arbeit wie Twinsoft AI ausgezahlt, wo der Eval-Harness die Kostenoptimierung sicher gemacht hat.

Fazit

Die ehrliche Antwort darauf, was ein interner KI-Assistent in der DACH-Region 2026 kostet: Die laufende Infrastruktur ist günstiger, als die meisten Führungskräfte erwarten, bei moderater Skalierung oft einstellige Euro pro Sitz und Monat, weil Embeddings, Vektor-Speicher und Tokens alle im Preis eingebrochen sind. Die Kosten, die das Projekt wirklich entscheiden, sind Wartung, die Entwicklerzeit, um Antworten korrekt zu halten, wenn sich Dokumente ändern, und diese Zeile übersteigt die Infrastruktur über ein Jahr.

Datenresidenz für ein DACH-Unternehmen treibt moderate Kosten, wenn sie von Anfang an eingeplant ist, und einen teuren Umbau, wenn sie nachträglich drangeschraubt wird. Bring deine drei Annahmen zuerst zu Papier, Sitze, Anfragen pro Tag und wie viel Kontext jede Antwort braucht, dann route zum günstigsten fähigen Modell, rufe präzise ab und budgetiere die Pflege ehrlich. Ein vertrauenswürdiger Assistent, den dein Team besitzt, ist weit mehr wert als ein günstiger, der still abdriftet.

Ein durchgerechneter Plan für deine Infra?