KI-Agent-Pilot in 30/60/90 Tagen: Der Produktiv-Rollout-Plan für österreichische KMU
Ein realistischer KI-Agent-Rollout dauert etwa 90 Tage. In den Tagen 0 bis 30 grenzen Sie ab und entschärfen das Risiko: Sie wählen einen klar abgegrenzten Workflow mit hohem Volumen, kartieren ihn, legen die Erfolgsmetrik und ein Abbruchkriterium vorab fest, inventarisieren die Systeme und Berechtigungen, die der Agent braucht, und stellen Logging sowie ein Eval-Set aus echten Fällen bereit. In den Tagen 31 bis 60 bauen Sie gegen eine Sandbox und fahren im Shadow-Modus, in dem der Agent vorschlägt und ein Mensch freigibt, während Sie gegen das Eval-Set messen und die Berechtigungen auf das geringste Privileg herunterregeln. In den Tagen 61 bis 90 rollen Sie auf einen Ausschnitt des echten Volumens mit Freigabe-Gates aus, beobachten Kosten pro Aktion und Fehlerrate, schreiben Runbook und Rollback, übergeben die Verantwortung an das Team und entscheiden: ausweiten, iterieren oder einstellen. Die schwierigen Teile sind Berechtigungen, Freigabe-Design, Evals, Logging und eine saubere Übergabe, nicht das Modell.
Das ist das Wie, geschrieben aus der Praxis. Für das Warum diese Projekte scheitern, behandelt unser Begleitbeitrag zu warum KI-Agent-Projekte abgebrochen werden die Fehler-Cluster; dieser hier ist der Plan, der sie vermeidet. Die regulatorischen Daten sind Stand Mitte 2026 und dort mit Vorbehalt versehen, wo sie in Bewegung sind.
Sie wollen einen 90-Tage-Agent-Rollout gemeinsam geplant und entschärft?
Kostenloses Erstgespräch buchenZuerst: Ist ein Agent überhaupt das richtige Werkzeug?
Ein KI-Agent ist ein System, in dem das Modell seine eigenen Schritte entscheidet und über Werkzeuge Aktionen gegen Ihre Systeme ausführt, mehrstufig auf ein Ziel hinarbeitend mit begrenztem menschlichem Eingriff. Nehmen Sie eines davon weg und es schrumpft auf etwas Einfacheres und meist Besseres zusammen. Die meisten gescheiterten "Agent"-Projekte hätten ein RAG-Assistent oder ein programmierter Workflow sein sollen. Wählen Sie das günstigste Werkzeug, das die Aufgabe erledigt.
| Was Sie brauchen | Richtiges Werkzeug |
|---|---|
| Einzelne Antworten aus einer Wissensbasis, kostenplanbar, leicht prüfbar | RAG-Assistent, kein Agent |
| Feste, regelbasierte, vorhersehbare Schritte auf strukturierten Daten | RPA oder ein programmierter Workflow, kein Agent |
| Dialogbasierte Fragen und Antworten ohne Aktionen gegen Systeme | Ein Chatbot, kein Agent |
| Offenes Ziel, unvorhersehbare Schrittzahl, muss über Werkzeuge Aktionen systemübergreifend ausführen | Ein KI-Agent, mit Leitplanken, und akzeptieren Sie die höheren Kosten und das Risiko kumulierender Fehler |
Die Faustregel: Reservieren Sie Agenten für Workflows, in denen zusätzliches Schlussfolgern das Geschäftsergebnis verändert. Wenn die Schritte nie variieren, ist ein Agent das teurere, weniger prüfbare falsche Werkzeug.
Tage 0 bis 30: abgrenzen und Risiko entschärfen
Der ganze Pilot wird hier gewonnen oder verloren. Wählen Sie einen Workflow mit hohem Volumen und klaren Grenzen, und schreiben Sie auf, bevor irgendetwas gebaut wird: die einzelne Zahl, die Sie bewegen wollen, die Baseline vor dem Werkzeugeinsatz (fangen Sie jetzt an zu messen) und ein Abbruchkriterium (zum Beispiel abbrechen, wenn die Adoption bis Woche vier unter einer gesetzten Marke liegt, oder wenn die Daten zu schmutzig sind oder die Wirkung zu klein ist). Inventarisieren Sie jedes System und jede Berechtigung, die der Agent berührt, und planen Sie das geringste Privileg von Anfang an. Stellen Sie Logging und Observability bereit, und bauen Sie ein kleines Eval-Set aus echten Fällen, 20 bis 50 Aufgaben aus echten Fehlern sind ein hervorragender Anfang. Entscheiden Sie, welche Aktionen ein menschliches Freigabe-Gate brauchen, besonders alles Unumkehrbare.
Tage 31 bis 60: bauen und im Shadow-Modus fahren
Bauen Sie gegen eine Sandbox, nie gegen Live-Systeme. Fahren Sie dann im Shadow-Modus: Der Agent verarbeitet dieselben echten Eingaben wie Ihr Team und protokolliert, was er tun würde, aber Menschen bleiben die finalen Entscheider, sodass Sie sein Urteilsvermögen messen, bevor er irgendetwas berührt. Nutzen Sie eine Leiter der Autonomie, zuerst beaufsichtigt, dann nur bei Ausnahmen oder stichprobenartige Freigaben, sobald die Metriken es verdienen. Bewerten Sie an Tag 30 und Tag 60 leicht gegen das Eval-Set, damit die Entscheidung an Tag 90 eine Bestätigung und keine Überraschung ist. Regeln Sie die Berechtigungen auf das geringste Privileg herunter und attackieren Sie die Fehlermodi gezielt im Red-Team-Verfahren: Prompt Injection, unsichere Werkzeugaufrufe und die mehrdeutige reale Anfrage, die in keiner Demo auftaucht. Für unsauberen Input zu entwerfen, nicht für den Idealfall, ist meist das, was einen Piloten, der live geht, von einem trennt, der es nicht tut.
Tage 61 bis 90: begrenzter Produktivbetrieb und Übergabe
Rollen Sie auf einen Ausschnitt des echten Volumens aus, mit den Freigabe-Gates weiterhin aktiv, und beginnen Sie mit einer Audit-First-Haltung, beobachten Sie das Verhalten, dann ziehen Sie die Kontrollen an. Überwachen Sie Kosten pro Aktion und Fehlerrate und erzwingen Sie harte Token- und Kostenbudgets auf der Infrastrukturebene vor jedem Aufruf, nicht in einem Bericht hinterher. Schreiben Sie das Runbook und das Rollback: Definieren Sie den Auslöser, der automatisch auf die vorherige Version zurückspringt, wenn eine Metrik abfällt. Tun Sie dann den Teil, den die meisten Teams überspringen: Übergeben Sie die Verantwortung an das Team. Die Entscheidungsbefugnis, wer den Agenten ändern darf und wer verantwortlich ist, muss vor dem breiteren Rollout definiert sein, und das Team muss die Traces lesen und das Runbook ausführen können, ohne die Leute, die es gebaut haben. Treffen Sie schließlich die Entscheidung gegen Ihre Tag-0-Metrik und Ihr Abbruchkriterium: ausweiten, iterieren oder stoppen.
Die schwierigen Teile, und wie man sie richtig macht
- Berechtigungen und geringstes Privileg. OWASPs Risiko der "excessive agency" geht auf übermäßige Funktionalität, Berechtigungen und Autonomie zurück. Geben Sie dem Agenten aufgabenbezogenen, zeitlich begrenzten Zugriff mit geringstem Privileg und eine eigene Identität, damit Sie das geringste Privileg durchsetzen und nach einem Vorfall rekonstruieren können, was passiert ist.
- Design der menschlichen Freigabe. Das Muster ist vorschlagen, dann freigeben: Der Agent pausiert bei einer Aktion mit hoher Wirkung oder Unumkehrbarkeit, und ein Mensch gibt sie frei, bearbeitet sie oder lehnt sie mit vollem Kontext ab. Sie müssen nicht jede Aktion freigeben, aber Sie müssen die abriegeln, die Schaden anrichten können.
- Evals und Regression. Drei Ebenen: deterministische Prüfungen pro Schritt, Stichproben im Produktivbetrieb, um Drift zu erkennen, und periodische menschliche Prüfung zur Kalibrierung. Einen Agenten zu testen heißt, sein Urteilsvermögen zu testen, nicht nur eine einzelne Ausgabe.
- Logging und Audit-Trail. Verfolgen Sie jeden Modellaufruf, jeden Werkzeugaufruf und jede Entscheidung. Ohne das können Sie weder debuggen noch verbessern noch nachweisen, was der Agent getan hat, und unter der DSGVO müssen Sie es nachweisen können.
- Kosten pro Aktion und Fallback. Agentische Abläufe können pro Aufgabe ein Mehrfaches eines Chatbots kosten, weil der Kontext bei jedem Schritt erneut gesendet wird. Verfolgen Sie die Kosten pro Ergebnis ab Tag eins, leiten Sie günstige Schritte an kleine Modelle und definieren Sie, was passiert, wenn ein Werkzeug oder das Modell ausfällt.
- Saubere Übergabe. Ein Agent, den nur Ihr Dienstleister versteht, ist eine Belastung, kein Gewinn. Das Team muss ihn besitzen.

"Das Modell ist heute der einfache Teil. Bei den 90 Tagen geht es um Berechtigungen, Freigabe-Gates, Evals und eine saubere Übergabe. Der Shadow-Modus ist der einzelne Schritt mit dem größten Hebel: Lassen Sie den Agenten sein Urteilsvermögen an echten Eingaben beweisen, während ein Mensch noch das Steuer hält, und die Go-Live-Entscheidung trifft sich von selbst."
Warum so viele Agent-Projekte scheitern
Gartner prognostiziert, dass über 40 Prozent der agentischen KI-Projekte bis Ende 2027 abgebrochen werden, und nennt eskalierende Kosten, unklaren Geschäftsnutzen und unzureichende Risikokontrollen als Gründe. Die Misserfolge gruppieren sich in wiedererkennbare Formen: Halluzination, Latenz, Eval-Schulden, ausufernde Kosten pro Aktion, fehlende Übergabe, schmutzige Daten, Scope-Gier und Audit-Lücken. Der 90-Tage-Plan oben ist darauf gebaut, jede davon früh sichtbar zu machen, in den ersten 30 Tagen, wo sie günstig zu beheben sind, statt im sechsten Monat, wo sie das Projekt töten. Wir schlüsseln die Cluster in warum KI-Agent-Projekte abgebrochen werden auf, und die Orchestrierungsfähigkeiten hinter dem guten Betrieb mehrerer Agenten in Fokus ist der Engpass.
Der EU- und Österreich-Teil
Ein Agent, der auf personenbezogene Daten zugreift, landet mitten in der DSGVO. Sie müssen einen Audit-Trail führen (das Rechenschaftsprinzip bedeutet, dass Sie nachweisen müssen, was passiert ist), Datenminimierung und geringstes Privileg anwenden und eine bedeutsame menschliche Aufsicht für jede wesentliche automatisierte Entscheidung bieten, kein symbolisches Abnicken. Sie brauchen außerdem einen unterzeichneten Auftragsverarbeitungsvertrag mit jedem Modell- und Cloud-Anbieter, bevor personenbezogene Daten zu ihnen fließen, und US-Anbieter tragen ein Rest-Übermittlungsrisiko selbst bei EU-Ansässigkeit. Die österreichische Datenschutzbehörde behandelt Sie, das einsetzende Unternehmen, als Verantwortlichen, die Verantwortung liegt also bei Ihnen. Beim EU AI Act gelten die Transparenzpflichten nach Artikel 50, einschließlich der Pflicht, Menschen mitzuteilen, dass sie es mit einer KI zu tun haben, ab dem 2. August 2026, ebenso wie die meisten Hochrisiko-Pflichten. Ein vorgeschlagener Digital Omnibus, der einige Hochrisiko-Fristen verschieben würde, wurde 2026 vorläufig vereinbart, ist aber noch nicht Gesetz, planen Sie also gegen das Datum 2. August 2026.
Häufig gestellte Fragen
Wie lange dauert es, einen KI-Agenten auszurollen?
Was ist eine Human-in-the-Loop-Freigabe?
Wie verhindere ich, dass ein KI-Agent Schaden anrichtet?
Brauche ich überhaupt einen Agenten?
Was kostet der Betrieb eines KI-Agenten?
Was ist der Shadow-Modus?
Was ist ein Abbruchkriterium und warum es zuerst festlegen?
Was sind Evals und warum sie vor dem Agenten bauen?
KI-Agenten in Österreich, wie ist die Rechtslage?
Wie übergebe ich den Agenten, sodass mein Team ihn besitzt?
Fazit
Ein KI-Agent-Rollout ist kein Modellproblem, es ist ein Betriebsproblem mit einem Modell darin. Die 90 Tage, die funktionieren, sind die, die in einen klar abgegrenzten Workflow fließen, in Berechtigungen mit geringstem Privileg, ein aus echten Fehlern gebautes Eval-Set, den Shadow-Modus vor jeder echten Kontrolle und eine Übergabe, die Ihr Team als Eigentümer zurücklässt.
Wählen Sie den kleinsten Workflow, in dem Schlussfolgern das Ergebnis tatsächlich verändert, setzen Sie die Metrik und das Abbruchkriterium an Tag 0, und lassen Sie den Shadow-Modus dem Agenten seine Autonomie verdienen. Tun Sie das, und Sie landen auf der richtigen Seite der Projekte, die live gehen, statt bei den 40 Prozent, die abgebrochen werden.
Sie wollen den ersten Agent-Workflow gemeinsam abgrenzen und im Shadow-Modus testen?
Kostenloses Erstgespräch buchen