KI-Agent-Pilot in 30/60/90 Tagen: Der Produktiv-Rollout-Plan für österreichische KMU

TL;DR

Ein KI-Agent-Rollout dauert rund 90 Tage. Tage 0-30: abgrenzen und Risiko entschärfen, ein klar begrenzter Workflow mit hohem Volumen, Erfolgsmetrik und Abbruchkriterium vorab festgelegt, Systeme und Berechtigungen inventarisiert, Logging plus ein Eval-Set aus echten Fällen, menschliche Freigabe-Gates. Tage 31-60: gegen eine Sandbox bauen und im Shadow-Modus fahren (der Agent schlägt vor, ein Mensch gibt frei), gegen das Eval-Set messen und Berechtigungen auf das geringste Privileg regeln. Tage 61-90: begrenzter Produktivbetrieb mit Freigabe-Gates, Kosten pro Aktion und Fehlerrate beobachten, Runbook plus Rollback, Verantwortung ans Team übergeben, entscheiden: ausweiten, iterieren oder einstellen. Die schwierigen Teile sind Berechtigungen, Freigabe-Design, Evals, Logging und eine saubere Übergabe, nicht das Modell. Die DSGVO gilt schon jetzt; EU AI Act Transparenz und die meisten Hochrisiko-Pflichten ab dem 2. August 2026.

Ein realistischer KI-Agent-Rollout dauert etwa 90 Tage. In den Tagen 0 bis 30 grenzt du ab und entschärfst das Risiko: Du wählst einen klar abgegrenzten Workflow mit hohem Volumen, bildest ihn ab, legst die Erfolgsmetrik und ein Abbruchkriterium vorab fest, inventarisierst die Systeme und Berechtigungen, die der Agent braucht, und stellst Logging sowie ein Eval-Set aus echten Fällen bereit. In den Tagen 31 bis 60 baust du gegen eine Sandbox und fährst im Shadow-Modus, in dem der Agent vorschlägt und ein Mensch freigibt, während du gegen das Eval-Set misst und die Berechtigungen auf das geringste Privileg herunterregelst. In den Tagen 61 bis 90 rollst du auf einen Ausschnitt des echten Volumens mit Freigabe-Gates aus, beobachtest Kosten pro Aktion und Fehlerrate, schreibst Runbook und Rollback, übergibst die Verantwortung ans Team und entscheidest: ausweiten, iterieren oder einstellen. Die schwierigen Teile sind Berechtigungen, Freigabe-Design, Evals, Logging und eine saubere Übergabe, nicht das Modell.

Das ist das Wie, geschrieben aus der Praxis. Für das Warum diese Projekte scheitern, behandelt unser Begleitbeitrag zu warum KI-Agent-Projekte abgebrochen werden die Fehler-Cluster; dieser hier ist der Plan, der sie vermeidet. Die regulatorischen Daten sind Stand Mitte 2026 und dort mit Vorbehalt versehen, wo sie in Bewegung sind.

Du willst einen 90-Tage-Agent-Rollout gemeinsam geplant und entschärft?

Kostenloses Erstgespräch buchen

Zuerst: Ist ein Agent überhaupt das richtige Werkzeug?

Ein KI-Agent ist ein System, in dem das Modell seine eigenen Schritte entscheidet und über Werkzeuge Aktionen gegen deine Systeme ausführt, mehrstufig auf ein Ziel hinarbeitend mit begrenztem menschlichem Eingriff. Nimm eines davon weg, und es schrumpft auf etwas Einfacheres und meist Besseres zusammen. Die meisten gescheiterten "Agent"-Projekte hätten ein RAG-Assistent oder ein programmierter Workflow sein sollen. Wähle das günstigste Werkzeug, das die Aufgabe erledigt.

Was du brauchst	Richtiges Werkzeug
Einzelne Antworten aus einer Wissensbasis, kostenplanbar, leicht prüfbar	RAG-Assistent, kein Agent
Feste, regelbasierte, vorhersehbare Schritte auf strukturierten Daten	RPA oder ein programmierter Workflow, kein Agent
Dialogbasierte Fragen und Antworten ohne Aktionen gegen Systeme	Ein Chatbot, kein Agent
Offenes Ziel, unvorhersehbare Schrittzahl, muss über Werkzeuge Aktionen systemübergreifend ausführen	Ein KI-Agent, mit Leitplanken, und akzeptiere die höheren Kosten und das Risiko kumulierender Fehler

Die Faustregel: Reserviere Agenten für Workflows, in denen zusätzliches Schlussfolgern das Geschäftsergebnis verändert. Wenn die Schritte nie variieren, ist ein Agent das teurere, weniger prüfbare falsche Werkzeug.

Tage 0 bis 30: abgrenzen und Risiko entschärfen

Der ganze Pilot wird hier gewonnen oder verloren. Wähle einen Workflow mit hohem Volumen und klaren Grenzen, und schreib auf, bevor irgendetwas gebaut wird: die einzelne Zahl, die du bewegen willst, die Baseline vor dem Werkzeugeinsatz (fang jetzt an zu messen) und ein Abbruchkriterium (zum Beispiel abbrechen, wenn die Adoption bis Woche vier unter einer gesetzten Marke liegt, oder wenn die Daten zu schmutzig sind oder die Wirkung zu klein ist). Inventarisiere jedes System und jede Berechtigung, die der Agent berührt, und plane das geringste Privileg von Anfang an. Stell Logging und Observability bereit, und bau ein kleines Eval-Set aus echten Fällen, 20 bis 50 Aufgaben aus echten Fehlern sind ein hervorragender Anfang. Entscheide, welche Aktionen ein menschliches Freigabe-Gate brauchen, besonders alles Unumkehrbare.

Tage 31 bis 60: bauen und im Shadow-Modus fahren

Bau gegen eine Sandbox, nie gegen Live-Systeme. Fahr dann im Shadow-Modus: Der Agent verarbeitet dieselben echten Eingaben wie dein Team und protokolliert, was er tun würde, aber Menschen bleiben die finalen Entscheider, sodass du sein Urteilsvermögen misst, bevor er irgendetwas berührt. Nutze eine Leiter der Autonomie, zuerst beaufsichtigt, dann nur bei Ausnahmen oder stichprobenartige Freigaben, sobald die Metriken es verdienen. Bewerte an Tag 30 und Tag 60 leicht gegen das Eval-Set, damit die Entscheidung an Tag 90 eine Bestätigung und keine Überraschung ist. Regle die Berechtigungen auf das geringste Privileg herunter und attackiere die Fehlermodi gezielt im Red-Team-Verfahren: Prompt Injection, unsichere Werkzeugaufrufe und die mehrdeutige reale Anfrage, die in keiner Demo auftaucht. Für unsauberen Input zu entwerfen, nicht für den Idealfall, ist meist das, was einen Piloten, der live geht, von einem trennt, der es nicht tut.

Tage 61 bis 90: begrenzter Produktivbetrieb und Übergabe

Rolle auf einen Ausschnitt des echten Volumens aus, mit den Freigabe-Gates weiterhin aktiv, und beginne mit einer Audit-First-Haltung, beobachte das Verhalten, dann ziehe die Kontrollen an. Überwache Kosten pro Aktion und Fehlerrate und erzwinge harte Token- und Kostenbudgets auf der Infrastrukturebene vor jedem Aufruf, nicht in einem Bericht hinterher. Schreib das Runbook und das Rollback: Definiere den Auslöser, der automatisch auf die vorherige Version zurückspringt, wenn eine Metrik abfällt. Tu dann den Teil, den die meisten Teams überspringen: Übergib die Verantwortung ans Team. Die Entscheidungsbefugnis, wer den Agenten ändern darf und wer verantwortlich ist, muss vor dem breiteren Rollout definiert sein, und das Team muss die Traces lesen und das Runbook ausführen können, ohne die Leute, die es gebaut haben. Triff schließlich die Entscheidung gegen deine Tag-0-Metrik und dein Abbruchkriterium: ausweiten, iterieren oder stoppen.

Die schwierigen Teile, und wie man sie richtig macht

Berechtigungen und geringstes Privileg. OWASPs Risiko der "excessive agency" geht auf übermäßige Funktionalität, Berechtigungen und Autonomie zurück. Gib dem Agenten aufgabenbezogenen, zeitlich begrenzten Zugriff mit geringstem Privileg und eine eigene Identität, damit du das geringste Privileg durchsetzen und nach einem Vorfall rekonstruieren kannst, was passiert ist.
Design der menschlichen Freigabe. Das Muster ist vorschlagen, dann freigeben: Der Agent pausiert bei einer Aktion mit hoher Wirkung oder Unumkehrbarkeit, und ein Mensch gibt sie frei, bearbeitet sie oder lehnt sie mit vollem Kontext ab. Du musst nicht jede Aktion freigeben, aber du musst die abriegeln, die Schaden anrichten können.
Evals und Regression. Drei Ebenen: deterministische Prüfungen pro Schritt, Stichproben im Produktivbetrieb, um Drift zu erkennen, und periodische menschliche Prüfung zur Kalibrierung. Einen Agenten zu testen heißt, sein Urteilsvermögen zu testen, nicht nur eine einzelne Ausgabe.
Logging und Audit-Trail. Verfolge jeden Modellaufruf, jeden Werkzeugaufruf und jede Entscheidung. Ohne das kannst du weder debuggen noch verbessern noch nachweisen, was der Agent getan hat, und unter der DSGVO musst du es nachweisen können.
Kosten pro Aktion und Fallback. Agentische Abläufe können pro Aufgabe ein Mehrfaches eines Chatbots kosten, weil der Kontext bei jedem Schritt erneut gesendet wird. Verfolge die Kosten pro Ergebnis ab Tag eins, leite günstige Schritte an kleine Modelle und definiere, was passiert, wenn ein Werkzeug oder das Modell ausfällt.
Saubere Übergabe. Ein Agent, den nur dein Dienstleister versteht, ist eine Belastung, kein Gewinn. Das Team muss ihn besitzen.

"Das Modell ist heute der einfache Teil. Bei den 90 Tagen geht es um Berechtigungen, Freigabe-Gates, Evals und eine saubere Übergabe. Der Shadow-Modus ist der einzelne Schritt mit dem größten Hebel: Lass den Agenten sein Urteilsvermögen an echten Eingaben beweisen, während ein Mensch noch das Steuer hält, und die Go-Live-Entscheidung trifft sich von selbst."

Warum so viele Agent-Projekte scheitern

Gartner prognostiziert, dass über 40 Prozent der agentischen KI-Projekte bis Ende 2027 abgebrochen werden, und nennt eskalierende Kosten, unklaren Geschäftsnutzen und unzureichende Risikokontrollen als Gründe. Die Misserfolge gruppieren sich in wiedererkennbare Formen: Halluzination, Latenz, Eval-Schulden, ausufernde Kosten pro Aktion, fehlende Übergabe, schmutzige Daten, Scope-Gier und Audit-Lücken. Der 90-Tage-Plan oben ist darauf gebaut, jede davon früh sichtbar zu machen, in den ersten 30 Tagen, wo sie günstig zu beheben sind, statt im sechsten Monat, wo sie das Projekt töten. Wir schlüsseln die Cluster in warum KI-Agent-Projekte abgebrochen werden auf, und die Orchestrierungsfähigkeiten hinter dem guten Betrieb mehrerer Agenten in Fokus ist der Engpass.

Der EU- und Österreich-Teil

Ein Agent, der auf personenbezogene Daten zugreift, landet mitten in der DSGVO. Du musst einen Audit-Trail führen (das Rechenschaftsprinzip bedeutet, dass du nachweisen musst, was passiert ist), Datenminimierung und geringstes Privileg anwenden und eine bedeutsame menschliche Aufsicht für jede wesentliche automatisierte Entscheidung bieten, kein symbolisches Abnicken. Du brauchst außerdem einen unterzeichneten Auftragsverarbeitungsvertrag mit jedem Modell- und Cloud-Anbieter, bevor personenbezogene Daten zu ihnen fließen, und US-Anbieter tragen ein Rest-Übermittlungsrisiko selbst bei EU-Ansässigkeit. Die österreichische Datenschutzbehörde behandelt dich, das einsetzende Unternehmen, als Verantwortlichen, die Verantwortung liegt also bei dir. Beim EU AI Act gelten die Transparenzpflichten nach Artikel 50, einschließlich der Pflicht, Menschen mitzuteilen, dass sie es mit einer KI zu tun haben, ab dem 2. August 2026, ebenso wie die meisten Hochrisiko-Pflichten. Ein vorgeschlagener Digital Omnibus, der einige Hochrisiko-Fristen verschieben würde, wurde 2026 vorläufig vereinbart, ist aber noch nicht Gesetz, plane also gegen das Datum 2. August 2026.

Häufig gestellte Fragen

Wie lange dauert es, einen KI-Agenten auszurollen?

Plane etwa 90 Tage: 30, um einen Workflow abzugrenzen und zu entschärfen, 30, um zu bauen und im Shadow-Modus zu fahren, und 30 für begrenzten Produktivbetrieb und Übergabe. Bewerte an Tag 30 und 60, damit die Entscheidung an Tag 90 (ausweiten, iterieren oder einstellen) keine Überraschung ist.

Was ist eine Human-in-the-Loop-Freigabe?

Der Agent schlägt eine Aktion vor und ein Mensch gibt sie frei, bearbeitet sie oder lehnt sie ab, bevor ein Nebeneffekt eintritt. Moderne Agent-Frameworks pausieren den Lauf und stellen den vollen Kontext für Aktionen mit hoher Wirkung oder Unumkehrbarkeit bereit, sodass du die gefährlichen abriegelst, ohne jeden Schritt freizugeben.

Wie verhindere ich, dass ein KI-Agent Schaden anrichtet?

Berechtigungen mit geringstem Privileg, aufgabenbezogen und zeitlich begrenzt; menschliche Freigabe-Gates bei unumkehrbaren Aktionen; eine Sandbox plus Red-Teaming vor dem Produktivbetrieb; harte Kosten- und Schrittbudgets, die vor jedem Aufruf erzwungen werden; und ein definiertes Rollback und Runbook.

Brauche ich überhaupt einen Agenten?

Nur wenn der Workflow ein offenes Ziel hat, eine unvorhersehbare Anzahl von Schritten und systemübergreifend Aktionen ausführen muss. Sonst nutzt du RAG für die Beantwortung von Fragen oder einen programmierten Workflow für feste Schritte, beide günstiger und besser prüfbar.

Was kostet der Betrieb eines KI-Agenten?

Mehr als ein Chatbot. Agentische Abläufe senden den Kontext bei jedem Schritt erneut, sodass die Kosten pro Aufgabe ein Mehrfaches betragen können. Verfolge die Kosten pro Aktion ab Tag eins und erzwinge Budgets auf der Infrastrukturebene, statt die Rechnung später zu entdecken.

Was ist der Shadow-Modus?

Der Agent läuft parallel zum menschlichen Prozess auf denselben Eingaben und protokolliert, was er tun würde, während Menschen die finalen Entscheider bleiben. Du misst seine Genauigkeit und sein Urteilsvermögen, bevor du ihm echte Kontrolle gibst.

Was ist ein Abbruchkriterium und warum es zuerst festlegen?

Ein vorab vereinbarter Schwellenwert, etwa Adoption unter einer gesetzten Marke bis Woche vier, der den Abbruch auslöst. Es an Tag 0 zu definieren verhindert den Sunk-Cost-Drift, was angesichts dessen zählt, dass für einen großen Teil der Agent-Projekte ein Abbruch prognostiziert wird.

Was sind Evals und warum sie vor dem Agenten bauen?

Eine Menge von Aufgaben aus echten Fällen, gegen die du den Agenten bewertest, beginnend mit 20 bis 50 aus echten Fehlern. Die Evals zuerst zu schreiben und dann zu bauen, um sie zu bestehen, ist die Art, wie du Regressionen erkennst, statt sie auszuliefern.

KI-Agenten in Österreich, wie ist die Rechtslage?

Die DSGVO gilt jetzt vollumfänglich: Audit-Trail, Datenminimierung, bedeutsame menschliche Aufsicht für wesentliche automatisierte Entscheidungen und ein Auftragsverarbeitungsvertrag mit deinem Modellanbieter. Transparenz nach dem EU AI Act und die meisten Hochrisiko-Pflichten gelten ab dem 2. August 2026; eine vorgeschlagene Verschiebung ist noch nicht Gesetz.

Wie übergebe ich den Agenten, sodass mein Team ihn besitzt?

Definiere Entscheidungsbefugnis und Verantwortlichkeit vor dem breiteren Rollout, dokumentiere ein Runbook und stell sicher, dass das Team die Traces lesen und den Agenten ohne die Leute betreiben kann, die ihn gebaut haben. Ein Agent, den nur der Dienstleister versteht, ist eine Belastung.

Fazit

Ein KI-Agent-Rollout ist kein Modellproblem, es ist ein Betriebsproblem mit einem Modell darin. Die 90 Tage, die funktionieren, sind die, die in einen klar abgegrenzten Workflow fließen, in Berechtigungen mit geringstem Privileg, ein aus echten Fehlern gebautes Eval-Set, den Shadow-Modus vor jeder echten Kontrolle und eine Übergabe, die dein Team als Eigentümer zurücklässt.

Wähle den kleinsten Workflow, in dem Schlussfolgern das Ergebnis tatsächlich verändert, setz die Metrik und das Abbruchkriterium an Tag 0, und lass den Shadow-Modus dem Agenten seine Autonomie verdienen. Tu das, und du landest auf der richtigen Seite der Projekte, die live gehen, statt bei den 40 Prozent, die abgebrochen werden.

Du willst den ersten Agent-Workflow gemeinsam abgrenzen und im Shadow-Modus testen?