Christof Jori

7 min Lesezeit · 26 May 2026

Warum 40 % der KI-Agent-Projekte abgebrochen werden: Failure-Modes, die wir gelebt haben

Gartner hat eine Zahl veröffentlicht, die nahelegt, dass rund 40 Prozent der Enterprise-KI-Agent-Projekte bis 2027 abgebrochen werden. Aus unserem Sitz beim Bau von Agent-Systemen in DACH und EU sind die Abbrüche nicht mysteriös. Sie clustern in 8 Failure-Modes. Jeder hat ein Anzeichen, jeder killt das Projekt auf andere Weise, und die meisten haben einen günstigen Fix, wenn du sie im ersten Monat fängst statt im sechsten. Dieser Post ist das Post-Mortem, das wir uns vor unserem ersten Agent-Build gewünscht hätten.

Die Evidenzbasis. Wavect-Engagements auf Agent- und KI-Produkten, darunter Twinsoft AI, PromptID, Quivr und Hyperstate AI (erfolgreich ausgeliefert; lief später nach Launch das Funding aus, kein Produkt- oder Tech-Failure).

Agent-Projekt in Gefahr?

 Kostenloses Erstgespräch buchen

Failure-Mode 1. Halluzination als Vertrauenskiller

Das Anzeichen. Zwei selbstbewusst falsche Antworten in einem Demo. Das Team patcht den Prompt. Nächstes Demo, zwei weitere falsche Antworten in anderer Form.

Wie es das Projekt killt. Vertrauen zerfällt nicht linear. Eine nachweislich falsche Antwort vor einem Exec ist zehn stille Erfolge wert. Der Agent wird "das KI-Ding, das lügt", und das Budget geht.

Der günstige Fix bei frühem Erkennen. Begrenze den Aktionsraum. Ein Agent, der sagt "Ich kann das aus den bereitgestellten Quellen nicht beantworten, hier ist der nächste Mensch im Loop", schlägt einen Agent, der konfabuliert. Bau den Refusal-Pfad vor dem Happy-Path.

Failure-Mode 2. Tool-Use-Latenz-Stack-up

Das Anzeichen. P50-Latenz sieht isoliert okay aus. P95-User-facing-Latenz bei Multi-Step-Tasks ist 25 bis 45 Sekunden.

Wie es das Projekt killt. Nutzer brechen den Agent für den manuellen Flow ab, den sie ersetzen wollten. Adoption flacht ab. Der CFO fragt, warum wir für Tokens zahlen, die niemand nutzt.

Der günstige Fix. Miss Tail-Latenz pro Tool-Call ab Woche eins. Parallelisiere Tool-Calls, wo die Reihenfolge nicht lastentragend ist. Cache idempotente Reads. Wähle einen LLM-Tier pro Schritt, nicht pro Agent. Das günstigste Modell, das den Task erfüllt, gewinnt.

Failure-Mode 3. Eval-Schulden, die sich aufbauen

Das Anzeichen. Das Team liefert eine Prompt-Änderung. Niemand weiß, ob sie etwas verbessert hat. Vibes-basiertes Regressions-Testing in einem Slack-Thread.

Wie es das Projekt killt. Ohne Evals ist jede Änderung eine Wette. Das System driftet. Nach acht Sprints traut niemand dem Agent genug, ihn echten Nutzern auszusetzen. Das Projekt wird still nicht mehr priorisiert.

Der günstige Fix. TDD für Agenten. Bau das Eval-Harness in Sprint eins. Golden-Set-Tests für die Top-20-User-Intents. Pass-Rate als Deployment-Gate. Wir haben darüber in unserer breiteren QA-Praxis geschrieben, und es gilt für Agenten doppelt.

Failure-Mode 4. Cost-per-Action sprengt die Unit Economics

Das Anzeichen. Die erste Rechnung vom LLM-Provider ist okay. Die dritte Rechnung ist 12x.

Wie es das Projekt killt. Der CFO fragt nach den Unit Economics. Kosten pro gelöstem Ticket übersteigen den Gross Margin. Der Agent ist technisch erfolgreich und kommerziell tot.

Der günstige Fix. Tracke Cost-per-Action ab Tag eins. Modellauswahl pro Schritt. Aggressives Prompt-Shortening. Caching statischer Kontexte. RAG mit kleineren Embeddings schlägt es, 200k Tokens Kontext in den Prompt zu stopfen. Wir haben 4- bis 8-fache Kostenreduktionen durch Architekturentscheidungen gesehen, die eine Woche zur Implementierung brauchten.

Failure-Mode 5. Human-Handoff-Design fehlt

Das Anzeichen. Der Agent funktioniert in 80 Prozent der Fälle. Die anderen 20 Prozent haben keinen Notausgang. Nutzer beschweren sich beim Support. Support kann nicht sehen, was der Agent gemacht hat.

Wie es das Projekt killt. Kundenorientierte Teams bauen einen parallelen Workaround. Der Agent wird zu einem Tier-0, um den sie routen. Die Kosten, beide Flows zu betreiben, killen den Case für beide.

Der günstige Fix. Designe den Handoff vor der Autonomie. Jede Agent-Aktion mit vollem Kontext geloggt. One-Click-Eskalation zu einem Menschen mit angehängter Konversations-History. Klare Policy, wozu der Agent sich enthalten muss.

Failure-Mode 6. Datenqualitäts-Probleme als Agent-Probleme verkleidet

Das Anzeichen. Der Agent gibt falsche Antworten aus der Wissensbasis. Das Team tunet den Prompt. Nichts verbessert sich.

Wie es das Projekt killt. Das Team fixt die falsche Schicht. Die Quelldaten sind veraltet, widersprüchlich oder falsch. Kein Prompt fixt das. Monate verschwinden in Prompt-Engineering auf faulen Fundamenten.

Der günstige Fix. Auditiere den Quellen-Korpus, bevor du den Agent skalierst. Owner pro Dokument, Refresh-Cadence, Widerspruchsdetektion. Der schnellste Pfad zu einem nützlichen Agent ist oft eine sauberere Datenpipeline, kein schlaueres Modell.

Failure-Mode 7. Scope-Gier (ein Agent macht 9 Dinge)

Das Anzeichen. Die Roadmap liest sich als "der Agent wird Support, Sales-Qualifikation, internes Wissens-Lookup, Scheduling und Vertrags-Review handhaben".

Wie es das Projekt killt. Jede Fähigkeit konkurriert um Prompt-Budget, Tool-Budget, Eval-Budget. Keine wird richtig gut. Das Team optimiert fürs Demo und liefert einen Agent, der bei neun Dingen mittelmäßig ist.

Der günstige Fix. Ein Agent, ein Job, ein Eval. Liefere eng aus. Füge Fähigkeiten erst hinzu, wenn die vorige ihren Eval auf Produktionslatte besteht. Komposition über Konflation.

Failure-Mode 8. Regulatorische und Audit-Trail-Lücken

Das Anzeichen. Der Agent wird ausgeliefert. Zwei Wochen später fragt Legal "wo ist das Audit-Log?" und "wie handhaben wir einen DSGVO-Art.-22-Einspruch?".

Wie es das Projekt killt. Der Agent wird aus Produktion gezogen, bis die Lücke geschlossen ist. Das Team rüstet sechs Wochen lang Compliance nach. Momentum stirbt.

Der günstige Fix. Audit-Log als First-Class-Datenstruktur, kein console.log. MCP-Tool-Calls mit Input, Output, Modellversion, Zeitstempel, Operator geloggt. Human-Override-Fläche, die aufzeichnet, wer was und warum überstimmt hat. Wir haben die Artefakt-Schicht in unserem Begleitbeitrag zum Stacking von DSGVO- und AI-Act-Compliance abgedeckt.

Christof Jori

"Evals sind das einzige ehrliche Maß eines Agents. Alles andere ist ein Demo mit cherry-picked Queries."

Wie clustern diese Failure-Modes in echten Engagements?

Aus unserer Erfahrung treten die Failure-Modes nicht isoliert auf. Sie clustern. Die häufigsten Kombinationen, die wir in steckenbleibenden Projekten sehen:

ClusterFailure-Modes, die zusammen reisenWie es aussieht
Die Demo-zu-Produktion-Klippe1, 3, 7Tolles Demo, keine Evals, Agent-Scope wuchs weiter, Produktions-Launch zeigt Halluzinationen bei echten Queries
Der stille Kostentod2, 4Latenz tolerabel, Kosten unsichtbar bis zur dritten Monatsrechnung, Unit Economics nie modelliert
Die Operations-Ablehnung5, 8Kein Handoff, kein Audit-Trail, Ops-Team verweigert die Ownership, Agent bleibt für immer im Pilot
Die Daten-Schicht-Fata-Morgana3, 6Monate von Prompt-Tuning auf kaputtem Korpus, Team gibt dem Modell die Schuld, die Daten sind das Problem

Was unterscheidet einen ausgelieferten Agent von einem abgebrochenen?

Drei Disziplin-Moves, die wir konsistent gesehen haben. Keiner ist exotisch.

  1. Eval-Harness in Sprint eins. Wenn du Verbesserung nicht messen kannst, kannst du nicht ausliefern.
  2. Cost-per-Action ab der ersten Integration getrackt. Per-Step-Modellauswahl als Engineering-Entscheidung behandeln, nicht als Default.
  3. Human-Handoff vor der Autonomie designed. Audit-Trail als First-Class-Concern, nicht für Legal drangeklebt.

Hyperstate AI wurde ausgeliefert. Dann lief dem Unternehmen nach Launch das Funding aus, was ein Fundraising-Failure ist, kein Produkt- oder Tech-Failure. Der Punkt. Auch eine saubere technische Umsetzung rettet ein Projekt nicht vor externen Ursachen. Aber schlampige Umsetzung garantiert Abbruch unabhängig vom Kapital.

Fazit

Agent-Projekte scheitern auf vorhersagbare Weise. Halluzination, Latenz, Eval-Schulden, Kosten-Davonlaufen, fehlender Handoff, schmutzige Daten, Scope-Gier, Audit-Lücken. Nichts davon sind exotische Probleme. Alle haben günstige Fixes bei Erkennen im ersten Monat und teure im sechsten.

Wenn du 2026 in DACH oder EU einen Agent baust, fahre dein aktuelles Projekt gegen die 8 Modes oben. Die ehrliche Antwort, welchen du ausgesetzt bist, ist auch der hebelstärkste Backlog für den nächsten Sprint. Die 40-Prozent-Abbruch-Zahl ist kein Schicksal. Sie ist, was passiert, wenn Teams das Eval-Harness überspringen, das Kosten-Dashboard ignorieren und Autonomie vor Handoff designen.

Brauchst du ein zweites Augenpaar auf deinem Agent-Build?

 Kostenloses Erstgespräch buchen
Christof Jori

7 min Lesezeit · 26 May 2026