Technische-Due-Diligence-Checkliste für KI-MVPs vor der Finanzierung

Die technische Due Diligence eines KI-MVP prüft dieselben Ebenen wie jede Prüfung individueller Softwareentwicklung (Code, Infrastruktur, Sicherheit, Team) plus eine Reihe KI-spezifischer Punkte, die ein Generalist übersieht: Hast du ein Evaluierungs-Set und Regressions-Evals, sind Prompts und Modelle versioniert, protokollierst du jeden Modellaufruf, was passiert, wenn das Modell versagt, was kostet eine Inferenz wirklich, und hast du die Rechte an den Daten, auf denen du trainierst oder abrufst? Was ein finanzierbares KI-MVP von einer Demo unterscheidet, ist einzig der Nachweis. Investoren behandeln eine private, versionierte Eval-Suite zunehmend als Beleg dafür, dass deine KI funktioniert. "Wir testen das von Hand" reicht dafür nicht. Das ist die Checkliste, die du an dir selbst durchgehen solltest, bevor andere es tun.

Das ist eine Engineering-Sicht für Gründer, mit den Fragen der Investoren explizit gemacht. Die regulatorischen Termine sind auf dem Stand von Mitte 2026; einer davon ist besonders tückisch, wenn du um eine Verzögerung herumplanst, die noch gar nicht in Kraft ist. Weiter unten markiert.

Willst du vor deiner Runde eine unabhängige technische DD?

Kostenloses Beratungsgespräch buchen

Warum Nachweis, nicht Demo

Zwei unabhängige Befunde setzen den Maßstab. Eine Stanford-Studie zu eigens entwickelten Legal-AI-Tools, also der Sorte, die als präzise verkauft wird, maß bei manchen Produkten dennoch Halluzinationen bei mehr als 17 Prozent der Benchmark-Anfragen und bei anderen bei mehr als 34 Prozent. Und ein 2025 vielzitierter, am MIT angesiedelter Bericht fand heraus, dass rund 95 Prozent der unternehmensseitigen generativen KI-Pilotprojekte keine messbare Wirkung auf das Geschäftsergebnis erzielten. Die Lehre für einen Gründer, der Geld einsammelt, ist unmissverständlich: Eine funktionierende Demo beweist fast nichts, und der Investor weiß das. Was eine Runde bewegt, ist der gemessene Nachweis, dass dein System funktioniert, nicht regrediert und auch im Maßstab wirtschaftlich und rechtlich solide ist.

Die KI-spezifischen Punkte, die ein Generalist übersieht

Das ist der Kern dieses Beitrags und der Teil, den eine generische Software-Prüfung überspringt. Zu jedem Punkt: was zu prüfen ist, warum es zählt und das Warnsignal.

Ein Evaluierungs-Set. Ein versionierter Golden-Datensatz plus ein Bewertungsraster. Unit-Tests sagen dir grün oder rot; sie können nicht sagen, ob eine Antwort korrekt oder quellentreu war. Warnsignal: "Wir schauen uns die Ausgaben an", kein Golden-Set, keine Zahlen.
Regressions-Evals als CI-Gate. Die Eval-Suite läuft bei jeder Prompt- oder Modelländerung vor dem Deploy. Derselbe Prompt liefert eine andere Ausgabe, wenn sich die Modellversion oder die Eingabe verschiebt, und ein Fix für einen Fall bricht stillschweigend einen anderen. Warnsignal: Prompt-Änderungen gehen direkt in die Produktion.
Observability der Modellaufrufe. Tracing jedes Modellaufrufs, mit Token- und Kostenabrechnung sowie erfassten Prompts und Antworten. Eine schlechte Antwort, die du nicht rekonstruieren kannst, kannst du auch nicht debuggen. Warnsignal: "Wir nutzen das Provider-Dashboard" als die ganze Geschichte.
Prompt- und Modellversionierung. Prompts sind versionierte Artefakte und das Modell ist festgepinnt, nicht als "latest" aufgerufen, das sich unter dir automatisch aktualisiert. Warnsignal: Prompts inline hartkodiert, Modell auf latest gealiast.
Ein Fallback, wenn das Modell versagt. Retries, ein sekundäres Modell oder ein zweiter Provider, sanfte Degradation. Deine Verfügbarkeit hängt jetzt an einer Drittanbieter-API. Warnsignal: ein Provider, ein Modell, kein Timeout oder degradierter Pfad, sodass ein Ausfall eines Anbieters ein vollständiger Ausfall ist.
Stückkosten pro Inferenz. Kosten pro Aufruf modelliert, dann pro Aktion, dann in die Bruttomarge. Agentische Abläufe fächern eine Aktion in Hunderte Aufrufe auf. Warnsignal: keine Kennzahl für Kosten pro Aktion und eine Marge, die als "SaaS-ähnlich" angenommen wird.
Rechte an den Trainings- und Abruf-Daten. Dokumentierte Herkunft und eine Lizenz oder Erlaubnis pro Quelle. Die Frage ist nicht mehr "ist es Fair Use", sondern "kannst du belegen, woher jedes Datum stammt und dass es rechtmäßig beschafft wurde". Warnsignal: gescrapte Daten unbekannter Herkunft, ein RAG-Korpus ohne Nutzungsrechte.
Eine gemessene Halluzinationsrate plus Guardrails. Eine Fehlerrate auf einem Domänen-Benchmark, plus Retrieval-Grounding und Ausgabevalidierung. Warnsignal: keine gemessene Rate und "RAG behebt Halluzinationen", als wäre es gelöst.
Modellwahl und Lock-in. Eine Begründung für proprietäre API versus offene Gewichte und eine Abstraktionsschicht, die den Anbieterwechsel erlaubt. Warnsignal: fest an das SDK eines einzigen Anbieters gekoppelt, mit einer Ökonomie, die nur zum heutigen subventionierten Preis funktioniert.

Die Übergabe-Artefakte, die ein finanzierbares KI-MVP bereithält

Wenn diese existieren, ist die Due Diligence schnell und deine Bewertung hält. Wenn sie nur im Kopf eines Gründers leben, wird jede Lücke zu einem Abschlag.

Artefakt	Warum die Due Diligence sich darum kümmert	Warnsignal, wenn es fehlt
Architekturdiagramm (datiert, benennt externe Abhängigkeiten)	Prüft, ob es das 10-Fache verkraftet, und deckt Schlüsselpersonen-Risiko auf	Architektur lebt nur im Kopf eines Gründers
Datenflussdiagramm (folgt den Daten, nicht den Services)	Zeigt, welche Dritten welche Daten berühren; DSGVO-Exposition	Unbekannte Datenschutz-Exposition, die der Investor erbt
Eval-Berichte (versionierte Harness, Ergebnisse je Modell und Prompt)	Wie ein behaupteter KI-Burggraben verifiziert statt geglaubt wird	Kein objektiver Nachweis, dass das Modell funktioniert oder nicht regrediert
Modell- und Prompt-Registry	Reproduzierbarkeit und Rollback jeder Ausgabe	Produktionsverhalten lässt sich nicht reproduzieren
Runbook und Incident Response	Senkt Schlüsselpersonen-Abhängigkeit, grundlegender Compliance-Nachweis	Ungemessenes Ausfallrisiko
SBOM (SPDX oder CycloneDX, in CI neu generiert)	Deckt Copyleft-Kontamination und ungepatchte CVEs auf	Unbekannte Lizenz- und Schwachstellen-Exposition
IP-Chain-of-Title (Zuweisungen von Gründern und Auftragnehmern)	Der klassische Deal-Killer; eine Rechnung zu bezahlen überträgt kein IP	Ein ausgeschiedener Beitragender, der ein Kernmodul nie übertragen hat
Sicherheitsbericht (aktueller Pentest, SOC 2 oder ISO 27001 falls zutreffend)	Standard im Jahr 2026, und es entriegelt Enterprise-Vertrieb	Unbekannte Breach-Exposition

Daten, Datenschutz und Herkunft

Bei einem EU-KI-MVP werden hier Deals neu bepreist. Die Due Diligence prüft dein Verzeichnis von Verarbeitungstätigkeiten (DSGVO Artikel 30), eine Rechtsgrundlage für das Training mit personenbezogenen Daten (Artikel 6 und 9, mit einer dokumentierten Abwägung des berechtigten Interesses), eine Datenschutz-Folgenabschätzung vor risikoreicher Verarbeitung (Artikel 35) und Auftragsverarbeitungsverträge mit Sub-Auftragsverarbeitern. Einen Punkt übersehen Gründer immer wieder: Eine Modell-API, die die Prompts deiner Nutzer aufnimmt, ist ein Sub-Auftragsverarbeiter, braucht also einen DPA und eine No-Training-, Zero-Retention-Konfiguration, keine Consumer-Bedingungen. Die EDPB Opinion 28/2024 warnt zudem, dass ein auf personenbezogenen Daten trainiertes Modell nicht automatisch anonym ist, sodass unrechtmäßige Trainingsdaten das eingesetzte Produkt kontaminieren können. Beim EU AI Act ist das geltende verbindliche Datum für die meisten Hochrisiko- und Transparenzpflichten der 2. August 2026. Ein Vorschlag zur Verzögerung kursierte 2026, ist aber nicht in Kraft, und ein Compliance-Plan, der auf die Verzögerung setzt, ist selbst ein Warnsignal.

Was Investoren tatsächlich anmerken

Von der Investoren- und Erwerberseite, und diese Quellen sind interessierte Parteien, also gewichte sie entsprechend, lauten die wiederkehrenden Anmerkungen: ein dünner Wrapper um ein einzelnes Modell ohne Workflow-Tiefe; ein schwacher Burggraben (die dauerhaften sind heute proprietäre oder lizenzierte Daten, Integrationen und persistenter Kontext, nicht das Basismodell); Bruttomarge nach Inferenzkosten, da Inferenz reale variable Kosten sind, die die SaaS-Margen-Annahme brechen; fragile Bindung bei niedrigen Wechselkosten; und zunehmend das Fehlen privater kontinuierlicher Evals. Speziell bei einer Übernahme rechne mit Bindungsklauseln für zentrale KI-Engineers und mit Garantien, die an Zusicherungen zur Datenherkunft gekoppelt sind. Der Vibe-Coding-Aspekt davon, Sicherheit, IP-Eigentum und was ein Erwerber bei KI-erzeugtem Code prüft, ist eine eigene Checkliste in unserem Beitrag zur Due Diligence bei Lovable, Bolt und Replit, und die Eval-Disziplin, die Punkt eins und zwei untermauert, steht in wann sich LLM-Evals lohnen.

"Eine Demo beweist, dass du einmal eine gute Antwort bekommst. Ein Eval-Set beweist, dass du konstant gute Antworten bekommst und merkst, wenn das aufhört. Investoren ließen sich vom Ersten nicht mehr beeindrucken und begannen, das Zweite zu verlangen. Diese Verschiebung ist das ganze Spiel in der KI-Due-Diligence."

Häufig gestellte Fragen

Was ist technische Due Diligence für ein KI-Startup?

Eine Prüfung von Code, Infrastruktur, KI-Systemen, Datenflüssen und Team hinter einem KI-Produkt durch Investor oder Erwerber, die verifiziert, dass es funktioniert, skaliert, rechtlich sauber ist und keine Ein-Personen- oder Ein-Anbieter-Haftung darstellt. Für KI kommen Eval-Nachweise, Modell- und Prompt-Versionierung, Inferenz-Ökonomie und Datenrechte-Prüfungen hinzu, die generalistische Software-Due-Diligence überspringt.

Was prüfen Investoren bei einem KI-MVP?

Ob es mehr ist als ein dünner Wrapper um eine einzige Modell-API, seine Verteidigungsfähigkeit durch Daten- oder Workflow-Tiefe, die Bruttomarge nach Inferenzkosten, die Bindung und zunehmend private Eval-Ergebnisse, die Produktionsqualität statt einer Demo belegen.

Welchen Eval-Nachweis brauche ich vor einer Runde?

Einen versionierten Golden- und Regressions-Datensatz, bewertete Ergebnisse je Modell- und Prompt-Version, ein CI-Gate, das Regressionen blockiert, und eine gemessene Fehler- oder Halluzinationsrate auf einem domänenrepräsentativen Benchmark. "Wir testen manuell" reicht dafür nicht.

Wie unterscheidet sich KI-Due-Diligence von normaler Software-Due-Diligence?

Normale Due Diligence fragt, ob der Code gut ist und skaliert. KI-Due-Diligence fragt zusätzlich, ob du jede Modellausgabe reproduzieren kannst, ob du Modellaufrufe protokollierst und beobachtest, was eine Inferenz kostet, was passiert, wenn das Modell versagt, und ob du die Rechte an den Daten hast, auf denen du trainierst oder abrufst.

Brauche ich ein SBOM für die Due Diligence?

Zunehmend ja. Ein aktuelles SBOM in SPDX oder CycloneDX deckt Open-Source-Lizenzkonflikte und bekannte Schwachstellen auf, und sowohl M&A-Käufer als auch der EU Cyber Resilience Act erwarten inzwischen maschinenlesbare SBOMs.

Was ist IP-Chain-of-Title und warum killt sie Deals?

Der dokumentierte Beweis, dass das Unternehmen sein gesamtes IP besitzt. Das Urheberrecht liegt standardmäßig beim Autor, also überträgt die Bezahlung der Rechnung eines Auftragnehmers kein IP. Ein nicht übertragenes Co-Founder- oder Auftragnehmer-Modul ist ein klassischer Grund, warum Startups die Due Diligence vor der Series A nicht bestehen.

Wie wirkt sich die DSGVO auf die KI-Due-Diligence in der EU aus?

Die Due Diligence prüft dein Verarbeitungsverzeichnis (Artikel 30), eine Rechtsgrundlage für das Training mit personenbezogenen Daten (Artikel 6 und 9), eine DSFA für risikoreiche Verarbeitung (Artikel 35) und DPAs mit Sub-Auftragsverarbeitern, einschließlich der Modell-API, die die Prompts deiner Nutzer aufnimmt. Die EDPB Opinion 28/2024 warnt, dass trainierte Modelle nicht automatisch anonym sind.

Gilt der EU AI Act schon für mein MVP?

Teilweise. Verbotene Praktiken und KI-Kompetenzpflichten gelten seit Februar 2025, GPAI-Pflichten seit August 2025 und die meisten Hochrisiko- und Transparenzpflichten ab dem 2. August 2026. Eine vorgeschlagene Verzögerung existiert, ist aber nicht Gesetz, also plan nicht darum herum.

Technische Due Diligence in Österreich, gibt es Unterschiede?

Die Substanz ist EU-Standard, DSGVO und der AI Act. Die österreichischen Besonderheiten sind eine aktiv durchsetzende Datenschutzbehörde, die KI keine Ausnahme gewährt, und aws- oder FFG-Förderauflagen auf deinem Cap Table, die ein späterer Investor sauber haben will.

Wie beweise ich, dass mein KI-Produkt nicht nur ein GPT-Wrapper ist?

Zeig Workflow-Tiefe und Wechselkosten durch Integrationen, proprietäre oder lizenzierte Daten und persistenten Kontext, eine Abstraktionsschicht, die den Anbieterwechsel erlaubt, und Stückkosten, die zu einem nicht subventionierten Modellpreis Bestand haben.

Fazit

Die technische Due Diligence eines KI-MVP ist kein generischer Code-Review mit dem Wort KI obendrauf. Die Ebenen, die über deine Runde entscheiden, sind die KI-spezifischen: Evals, die beweisen, dass das Ding funktioniert und nicht regrediert, Versionierung, die jede Ausgabe reproduzierbar macht, ehrliche Inferenz-Ökonomie und saubere Rechte an deinen Daten.

Die gute Nachricht: All das lässt sich vor der Due Diligence billiger beheben, als es während ihr zu erklären. Bau das Eval-Set, pinne die Modelle, protokolliere die Aufrufe, lass die IP-Chain-of-Title unterschreiben und halte die Artefakte in einem Ordner bereit. Tu das, und die Due Diligence wird zur Formsache. Lass es weg, und jede Lücke wird zu einem Abschlag auf deine Bewertung.

Willst du Eval-Set und Artefakte vor deiner Runde bereit haben?