Kevin Riedl

13 min Lesezeit · 14 Jun 2026

KI-Agent-Pilot in 30/60/90 Tagen: Der Produktiv-Rollout-Plan für österreichische KMU

Ein realistischer KI-Agent-Rollout dauert etwa 90 Tage. In den Tagen 0 bis 30 grenzen Sie ab und entschärfen das Risiko: Sie wählen einen klar abgegrenzten Workflow mit hohem Volumen, kartieren ihn, legen die Erfolgsmetrik und ein Abbruchkriterium vorab fest, inventarisieren die Systeme und Berechtigungen, die der Agent braucht, und stellen Logging sowie ein Eval-Set aus echten Fällen bereit. In den Tagen 31 bis 60 bauen Sie gegen eine Sandbox und fahren im Shadow-Modus, in dem der Agent vorschlägt und ein Mensch freigibt, während Sie gegen das Eval-Set messen und die Berechtigungen auf das geringste Privileg herunterregeln. In den Tagen 61 bis 90 rollen Sie auf einen Ausschnitt des echten Volumens mit Freigabe-Gates aus, beobachten Kosten pro Aktion und Fehlerrate, schreiben Runbook und Rollback, übergeben die Verantwortung an das Team und entscheiden: ausweiten, iterieren oder einstellen. Die schwierigen Teile sind Berechtigungen, Freigabe-Design, Evals, Logging und eine saubere Übergabe, nicht das Modell.

Das ist das Wie, geschrieben aus der Praxis. Für das Warum diese Projekte scheitern, behandelt unser Begleitbeitrag zu warum KI-Agent-Projekte abgebrochen werden die Fehler-Cluster; dieser hier ist der Plan, der sie vermeidet. Die regulatorischen Daten sind Stand Mitte 2026 und dort mit Vorbehalt versehen, wo sie in Bewegung sind.

Sie wollen einen 90-Tage-Agent-Rollout gemeinsam geplant und entschärft?

 Kostenloses Erstgespräch buchen

Zuerst: Ist ein Agent überhaupt das richtige Werkzeug?

Ein KI-Agent ist ein System, in dem das Modell seine eigenen Schritte entscheidet und über Werkzeuge Aktionen gegen Ihre Systeme ausführt, mehrstufig auf ein Ziel hinarbeitend mit begrenztem menschlichem Eingriff. Nehmen Sie eines davon weg und es schrumpft auf etwas Einfacheres und meist Besseres zusammen. Die meisten gescheiterten "Agent"-Projekte hätten ein RAG-Assistent oder ein programmierter Workflow sein sollen. Wählen Sie das günstigste Werkzeug, das die Aufgabe erledigt.

Was Sie brauchenRichtiges Werkzeug
Einzelne Antworten aus einer Wissensbasis, kostenplanbar, leicht prüfbarRAG-Assistent, kein Agent
Feste, regelbasierte, vorhersehbare Schritte auf strukturierten DatenRPA oder ein programmierter Workflow, kein Agent
Dialogbasierte Fragen und Antworten ohne Aktionen gegen SystemeEin Chatbot, kein Agent
Offenes Ziel, unvorhersehbare Schrittzahl, muss über Werkzeuge Aktionen systemübergreifend ausführenEin KI-Agent, mit Leitplanken, und akzeptieren Sie die höheren Kosten und das Risiko kumulierender Fehler

Die Faustregel: Reservieren Sie Agenten für Workflows, in denen zusätzliches Schlussfolgern das Geschäftsergebnis verändert. Wenn die Schritte nie variieren, ist ein Agent das teurere, weniger prüfbare falsche Werkzeug.

Tage 0 bis 30: abgrenzen und Risiko entschärfen

Der ganze Pilot wird hier gewonnen oder verloren. Wählen Sie einen Workflow mit hohem Volumen und klaren Grenzen, und schreiben Sie auf, bevor irgendetwas gebaut wird: die einzelne Zahl, die Sie bewegen wollen, die Baseline vor dem Werkzeugeinsatz (fangen Sie jetzt an zu messen) und ein Abbruchkriterium (zum Beispiel abbrechen, wenn die Adoption bis Woche vier unter einer gesetzten Marke liegt, oder wenn die Daten zu schmutzig sind oder die Wirkung zu klein ist). Inventarisieren Sie jedes System und jede Berechtigung, die der Agent berührt, und planen Sie das geringste Privileg von Anfang an. Stellen Sie Logging und Observability bereit, und bauen Sie ein kleines Eval-Set aus echten Fällen, 20 bis 50 Aufgaben aus echten Fehlern sind ein hervorragender Anfang. Entscheiden Sie, welche Aktionen ein menschliches Freigabe-Gate brauchen, besonders alles Unumkehrbare.

Tage 31 bis 60: bauen und im Shadow-Modus fahren

Bauen Sie gegen eine Sandbox, nie gegen Live-Systeme. Fahren Sie dann im Shadow-Modus: Der Agent verarbeitet dieselben echten Eingaben wie Ihr Team und protokolliert, was er tun würde, aber Menschen bleiben die finalen Entscheider, sodass Sie sein Urteilsvermögen messen, bevor er irgendetwas berührt. Nutzen Sie eine Leiter der Autonomie, zuerst beaufsichtigt, dann nur bei Ausnahmen oder stichprobenartige Freigaben, sobald die Metriken es verdienen. Bewerten Sie an Tag 30 und Tag 60 leicht gegen das Eval-Set, damit die Entscheidung an Tag 90 eine Bestätigung und keine Überraschung ist. Regeln Sie die Berechtigungen auf das geringste Privileg herunter und attackieren Sie die Fehlermodi gezielt im Red-Team-Verfahren: Prompt Injection, unsichere Werkzeugaufrufe und die mehrdeutige reale Anfrage, die in keiner Demo auftaucht. Für unsauberen Input zu entwerfen, nicht für den Idealfall, ist meist das, was einen Piloten, der live geht, von einem trennt, der es nicht tut.

Tage 61 bis 90: begrenzter Produktivbetrieb und Übergabe

Rollen Sie auf einen Ausschnitt des echten Volumens aus, mit den Freigabe-Gates weiterhin aktiv, und beginnen Sie mit einer Audit-First-Haltung, beobachten Sie das Verhalten, dann ziehen Sie die Kontrollen an. Überwachen Sie Kosten pro Aktion und Fehlerrate und erzwingen Sie harte Token- und Kostenbudgets auf der Infrastrukturebene vor jedem Aufruf, nicht in einem Bericht hinterher. Schreiben Sie das Runbook und das Rollback: Definieren Sie den Auslöser, der automatisch auf die vorherige Version zurückspringt, wenn eine Metrik abfällt. Tun Sie dann den Teil, den die meisten Teams überspringen: Übergeben Sie die Verantwortung an das Team. Die Entscheidungsbefugnis, wer den Agenten ändern darf und wer verantwortlich ist, muss vor dem breiteren Rollout definiert sein, und das Team muss die Traces lesen und das Runbook ausführen können, ohne die Leute, die es gebaut haben. Treffen Sie schließlich die Entscheidung gegen Ihre Tag-0-Metrik und Ihr Abbruchkriterium: ausweiten, iterieren oder stoppen.

Die schwierigen Teile, und wie man sie richtig macht

  • Berechtigungen und geringstes Privileg. OWASPs Risiko der "excessive agency" geht auf übermäßige Funktionalität, Berechtigungen und Autonomie zurück. Geben Sie dem Agenten aufgabenbezogenen, zeitlich begrenzten Zugriff mit geringstem Privileg und eine eigene Identität, damit Sie das geringste Privileg durchsetzen und nach einem Vorfall rekonstruieren können, was passiert ist.
  • Design der menschlichen Freigabe. Das Muster ist vorschlagen, dann freigeben: Der Agent pausiert bei einer Aktion mit hoher Wirkung oder Unumkehrbarkeit, und ein Mensch gibt sie frei, bearbeitet sie oder lehnt sie mit vollem Kontext ab. Sie müssen nicht jede Aktion freigeben, aber Sie müssen die abriegeln, die Schaden anrichten können.
  • Evals und Regression. Drei Ebenen: deterministische Prüfungen pro Schritt, Stichproben im Produktivbetrieb, um Drift zu erkennen, und periodische menschliche Prüfung zur Kalibrierung. Einen Agenten zu testen heißt, sein Urteilsvermögen zu testen, nicht nur eine einzelne Ausgabe.
  • Logging und Audit-Trail. Verfolgen Sie jeden Modellaufruf, jeden Werkzeugaufruf und jede Entscheidung. Ohne das können Sie weder debuggen noch verbessern noch nachweisen, was der Agent getan hat, und unter der DSGVO müssen Sie es nachweisen können.
  • Kosten pro Aktion und Fallback. Agentische Abläufe können pro Aufgabe ein Mehrfaches eines Chatbots kosten, weil der Kontext bei jedem Schritt erneut gesendet wird. Verfolgen Sie die Kosten pro Ergebnis ab Tag eins, leiten Sie günstige Schritte an kleine Modelle und definieren Sie, was passiert, wenn ein Werkzeug oder das Modell ausfällt.
  • Saubere Übergabe. Ein Agent, den nur Ihr Dienstleister versteht, ist eine Belastung, kein Gewinn. Das Team muss ihn besitzen.
Kevin Riedl

"Das Modell ist heute der einfache Teil. Bei den 90 Tagen geht es um Berechtigungen, Freigabe-Gates, Evals und eine saubere Übergabe. Der Shadow-Modus ist der einzelne Schritt mit dem größten Hebel: Lassen Sie den Agenten sein Urteilsvermögen an echten Eingaben beweisen, während ein Mensch noch das Steuer hält, und die Go-Live-Entscheidung trifft sich von selbst."

Warum so viele Agent-Projekte scheitern

Gartner prognostiziert, dass über 40 Prozent der agentischen KI-Projekte bis Ende 2027 abgebrochen werden, und nennt eskalierende Kosten, unklaren Geschäftsnutzen und unzureichende Risikokontrollen als Gründe. Die Misserfolge gruppieren sich in wiedererkennbare Formen: Halluzination, Latenz, Eval-Schulden, ausufernde Kosten pro Aktion, fehlende Übergabe, schmutzige Daten, Scope-Gier und Audit-Lücken. Der 90-Tage-Plan oben ist darauf gebaut, jede davon früh sichtbar zu machen, in den ersten 30 Tagen, wo sie günstig zu beheben sind, statt im sechsten Monat, wo sie das Projekt töten. Wir schlüsseln die Cluster in warum KI-Agent-Projekte abgebrochen werden auf, und die Orchestrierungsfähigkeiten hinter dem guten Betrieb mehrerer Agenten in Fokus ist der Engpass.

Der EU- und Österreich-Teil

Ein Agent, der auf personenbezogene Daten zugreift, landet mitten in der DSGVO. Sie müssen einen Audit-Trail führen (das Rechenschaftsprinzip bedeutet, dass Sie nachweisen müssen, was passiert ist), Datenminimierung und geringstes Privileg anwenden und eine bedeutsame menschliche Aufsicht für jede wesentliche automatisierte Entscheidung bieten, kein symbolisches Abnicken. Sie brauchen außerdem einen unterzeichneten Auftragsverarbeitungsvertrag mit jedem Modell- und Cloud-Anbieter, bevor personenbezogene Daten zu ihnen fließen, und US-Anbieter tragen ein Rest-Übermittlungsrisiko selbst bei EU-Ansässigkeit. Die österreichische Datenschutzbehörde behandelt Sie, das einsetzende Unternehmen, als Verantwortlichen, die Verantwortung liegt also bei Ihnen. Beim EU AI Act gelten die Transparenzpflichten nach Artikel 50, einschließlich der Pflicht, Menschen mitzuteilen, dass sie es mit einer KI zu tun haben, ab dem 2. August 2026, ebenso wie die meisten Hochrisiko-Pflichten. Ein vorgeschlagener Digital Omnibus, der einige Hochrisiko-Fristen verschieben würde, wurde 2026 vorläufig vereinbart, ist aber noch nicht Gesetz, planen Sie also gegen das Datum 2. August 2026.

Häufig gestellte Fragen

Wie lange dauert es, einen KI-Agenten auszurollen?
Planen Sie etwa 90 Tage: 30, um einen Workflow abzugrenzen und zu entschärfen, 30, um zu bauen und im Shadow-Modus zu fahren, und 30 für begrenzten Produktivbetrieb und Übergabe. Bewerten Sie an Tag 30 und 60, damit die Entscheidung an Tag 90 (ausweiten, iterieren oder einstellen) keine Überraschung ist.
Was ist eine Human-in-the-Loop-Freigabe?
Der Agent schlägt eine Aktion vor und ein Mensch gibt sie frei, bearbeitet sie oder lehnt sie ab, bevor ein Nebeneffekt eintritt. Moderne Agent-Frameworks pausieren den Lauf und stellen den vollen Kontext für Aktionen mit hoher Wirkung oder Unumkehrbarkeit bereit, sodass Sie die gefährlichen abriegeln, ohne jeden Schritt freizugeben.
Wie verhindere ich, dass ein KI-Agent Schaden anrichtet?
Berechtigungen mit geringstem Privileg, aufgabenbezogen und zeitlich begrenzt; menschliche Freigabe-Gates bei unumkehrbaren Aktionen; eine Sandbox plus Red-Teaming vor dem Produktivbetrieb; harte Kosten- und Schrittbudgets, die vor jedem Aufruf erzwungen werden; und ein definiertes Rollback und Runbook.
Brauche ich überhaupt einen Agenten?
Nur wenn der Workflow ein offenes Ziel hat, eine unvorhersehbare Anzahl von Schritten und systemübergreifend Aktionen ausführen muss. Sonst nutzen Sie RAG für die Beantwortung von Fragen oder einen programmierten Workflow für feste Schritte, beide günstiger und besser prüfbar.
Was kostet der Betrieb eines KI-Agenten?
Mehr als ein Chatbot. Agentische Abläufe senden den Kontext bei jedem Schritt erneut, sodass die Kosten pro Aufgabe ein Mehrfaches betragen können. Verfolgen Sie die Kosten pro Aktion ab Tag eins und erzwingen Sie Budgets auf der Infrastrukturebene, statt die Rechnung später zu entdecken.
Was ist der Shadow-Modus?
Der Agent läuft parallel zum menschlichen Prozess auf denselben Eingaben und protokolliert, was er tun würde, während Menschen die finalen Entscheider bleiben. Sie messen seine Genauigkeit und sein Urteilsvermögen, bevor Sie ihm echte Kontrolle geben.
Was ist ein Abbruchkriterium und warum es zuerst festlegen?
Ein vorab vereinbarter Schwellenwert, etwa Adoption unter einer gesetzten Marke bis Woche vier, der den Abbruch auslöst. Es an Tag 0 zu definieren verhindert den Sunk-Cost-Drift, was angesichts dessen zählt, dass für einen großen Teil der Agent-Projekte ein Abbruch prognostiziert wird.
Was sind Evals und warum sie vor dem Agenten bauen?
Eine Menge von Aufgaben aus echten Fällen, gegen die Sie den Agenten bewerten, beginnend mit 20 bis 50 aus echten Fehlern. Die Evals zuerst zu schreiben und dann zu bauen, um sie zu bestehen, ist die Art, wie Sie Regressionen erkennen, statt sie auszuliefern.
KI-Agenten in Österreich, wie ist die Rechtslage?
Die DSGVO gilt jetzt vollumfänglich: Audit-Trail, Datenminimierung, bedeutsame menschliche Aufsicht für wesentliche automatisierte Entscheidungen und ein Auftragsverarbeitungsvertrag mit Ihrem Modellanbieter. Transparenz nach dem EU AI Act und die meisten Hochrisiko-Pflichten gelten ab dem 2. August 2026; eine vorgeschlagene Verschiebung ist noch nicht Gesetz.
Wie übergebe ich den Agenten, sodass mein Team ihn besitzt?
Definieren Sie Entscheidungsbefugnis und Verantwortlichkeit vor dem breiteren Rollout, dokumentieren Sie ein Runbook und stellen Sie sicher, dass das Team die Traces lesen und den Agenten ohne die Leute betreiben kann, die ihn gebaut haben. Ein Agent, den nur der Dienstleister versteht, ist eine Belastung.

Fazit

Ein KI-Agent-Rollout ist kein Modellproblem, es ist ein Betriebsproblem mit einem Modell darin. Die 90 Tage, die funktionieren, sind die, die in einen klar abgegrenzten Workflow fließen, in Berechtigungen mit geringstem Privileg, ein aus echten Fehlern gebautes Eval-Set, den Shadow-Modus vor jeder echten Kontrolle und eine Übergabe, die Ihr Team als Eigentümer zurücklässt.

Wählen Sie den kleinsten Workflow, in dem Schlussfolgern das Ergebnis tatsächlich verändert, setzen Sie die Metrik und das Abbruchkriterium an Tag 0, und lassen Sie den Shadow-Modus dem Agenten seine Autonomie verdienen. Tun Sie das, und Sie landen auf der richtigen Seite der Projekte, die live gehen, statt bei den 40 Prozent, die abgebrochen werden.

Sie wollen den ersten Agent-Workflow gemeinsam abgrenzen und im Shadow-Modus testen?

 Kostenloses Erstgespräch buchen
Kevin Riedl

13 min Lesezeit · 14 Jun 2026