KI-Agenten & Produkte

KI-Agenten & KI-Produkte, die in Produktion bestehen

Wir konzipieren, bauen und liefern KI-Agenten, agentic SaaS und LLM-Apps, die echten Nutzern standhalten, nicht nur im Demo. Die meisten KI-Agenten-Projekte sterben vor der Produktion. Wir bauen die, die es nicht tun, und sagen dir vorab, wann KI das falsche Werkzeug ist.

Jede Woche kündbar. Letzte Woche erstattet, wenn wir's nicht verdient haben. Keine Stundenabrechnung.

  • 75+ Produkte ausgeliefert
  • 10+ Jahre Erfahrung
  • No-Bullshit-Garantie
// 01

Warum die meisten KI-Projekte nie live gehen

40% der Agentic-KI-Projekte werden bis Ende 2027 eingestampft (Gartner, 2025)

Projekte sterben an Kosten, Architektur und Evals, nicht an der Modellqualität. Das Modell ist die einfachen 20 Prozent. Die anderen 80 Prozent bauen wir von Tag eins an, die unspektakulären Gates, die darüber entscheiden, ob ein Agent echten Nutzern standhält:

  • Grounding vor Generierung. Retrieval-Augmented Generation zieht Fakten aus deinen Quellen, sodass das Modell aus deinen Daten antwortet, nicht aus seiner Fantasie.
  • Ein Eval-Harness, kein Bauchgefühl. Jeder Deploy wird gegen das erwartete Verhalten bewertet, sodass du misst, wann das Modell falschliegt, bevor es ein Kunde tut.
  • Guardrails und Observability. Strukturierte Outputs, Validierung, Tracing und Kostenerfassung pro Call. Du siehst, was der Agent getan hat und was es gekostet hat.
  • Ein Kostenbudget, vorab. Token- und Routing-Entscheidungen werden modelliert, bevor wir bauen, sodass die API-Rechnung ein Posten ist und keine Überraschung im zweiten Monat.
// 02

Was wir tun

KI-Agenten & Workflow-Automatisierung

Wir bauen KI-Agenten, die wirklich handeln: Tools und APIs aufrufen (Function Calling, MCP), mehrstufige Pläne ausführen, in deine Systeme lesen und schreiben und Workflows unbeaufsichtigt automatisieren. Rechnungstriage, interne Research-Agenten, Content-Ops-Pipelines, automatische QA-Harnesses.

Agentic SaaS & LLM-App-Entwicklung

Vom Prototyp bis zur Produktion: LLM-gestützte Features und vollständiges agentic SaaS, mit Auth, Billing, Evals, Guardrails und Observability eingebaut. Wir liefern das ganze Produkt, nicht einen Proof of Concept, der stecken bleibt.

KI-Integration & Modell-Strategie

Wir betten Frontier- und Open-Source-Modelle (ChatGPT, Claude, Open-Weights) in deine bestehenden Apps ein: Prompt Engineering, RAG-Pipelines, Fine-Tuning wenn die Rechnung aufgeht, und Drittanbieter-KI-APIs kosteneffizient umgesetzt.

KI-Einschätzung, ehrlich

Nicht sicher, ob KI passt? Wir schauen drauf und sagen dir, wo sie Mehrwert schafft und wo ein SQL-Query den Agenten schlägt. Die meisten Agenten-Projekte scheitern an Architektur, Evals und Kosten, nicht an der Modellqualität. Wir bauen so, dass das nicht passiert.

// 03

Vom Use-Case bis zur Produktion

Das Modell ist der einfache Teil. Das ist der Weg, den jeder Build geht, damit er echte Nutzer erreicht und nicht als Demo stecken bleibt.

01

Discovery

Wir stellen den Use-Case auf die Probe. Wo KI ihren Platz verdient, wo ein SQL-Query oder eine Rules Engine gewinnt. Das sagen wir, bevor du Geld ausgibst.

02

Architektur

Modellwahl, RAG vs. Fine-Tuning, Routing, Datenfluss und das Kostenbudget, entschieden vor der ersten Zeile Code.

03

Grounding

Retrieval über deine eigenen Quellen, sodass Antworten in deinen Daten verankert sind, mit Quellenangaben, wo sie zählen.

04

Evals

Ein Evaluation-Harness, der echte Antworten bei jedem Deploy gegen das erwartete Verhalten bewertet. Keine Evals, kein Ship.

05

Guardrails & Observability

Strukturierte Outputs, Validierung, Fallbacks, Tracing und Kosten-Alerts, sodass Fehler abgefangen und nicht von einem Nutzer entdeckt werden.

06

Ship & Übergabe

Auth, Billing, Rate-Limiting, Audit-Logs, Runbooks. Produktions-Fundament plus eine saubere Übergabe an dein Team.

// 04

Der Produktions-Stack, auf dem wir bauen

Langweilige, bewährte Tools, die wir sauber wieder rausreißen können, wenn sich der Stack verschiebt. Wir wählen für die nächsten zwei Jahre, nicht für die nächste Pressemitteilung.

LangGraphLangChainLlamaIndexVercel AI SDKRAGMCPStructured OutputsBraintrustLangfuseLangSmithHeliconevLLMOllamaSemantic RoutingOpen-Weight-Modelle
// 05

Was es kostet

Richtwerte. Eine fixe Zahl scopen wir nach einer kurzen Discovery, nicht davor.

Prompt-Engineering-Integration €5-15k

Ein KI-Feature auf einer bestehenden App: Prompting, strukturierte Outputs, eine saubere UI.

RAG-System mit Evals €15-40k

Retrieval über deine eigenen Dokumente, evaluiert, mit echter Oberfläche und Guardrails.

Multi-Step-Agent €40-100k+

Tools, Memory und Guardrails für Arbeit, die unbeaufsichtigt läuft.

Laufende API-Kosten kommen extra und sind ins Angebot eingerechnet, sodass es im zweiten Monat keine sechsstellige Überraschung von deinem Modell-Anbieter gibt.
// 06

Welche Prinzipien leiten unsere KI-Arbeit?

  • Kein Geschwafel. Wir fügen deinem Projekt keine KI hinzu, nur um sie in eine Pressemitteilung zu schreiben.
  • Praxis vor Theorie. Jede Integration, die wir bauen, hat einen klaren, messbaren Business-Zweck.
  • Ehrliche Beratung. Wenn KI nicht das Richtige für deine Situation ist, sagen wir's dir und schlagen eine Alternative vor.
  • Kosteneffizient. KI-APIs sind nicht gratis. Wir bauen effizient, damit die Rechnung dein Budget nicht heimlich auffrisst.

Wann lautet die ehrliche Antwort „bau es nicht"?

Oft.

Lieber begraben wir einen Use-Case, als einen Agenten auszuliefern, der in der Produktion versagt.

// beweise

Beweise statt Versprechen

Das sind ausgewählte Projekte, nicht unser gesamtes Portfolio. Seit 2018 haben wir 75+ Produkte ausgeliefert.

Was Kunden sagen

Google

Mehrere venture-finanzierte Startups in 4 Jahren mit Wavect aufgebaut. Weltklasse-Team. Großartige Sparringspartner in der Discovery-Phase, verlässliche und planbare Ingenieure in der Entwicklung und insgesamt großartige Leute. Sehr klare Empfehlung für euer nächstes Projekt.

Joseph Miller
LinkedIn

Kevin kennenzulernen war sehr spannend! Er brennt für seine Themen und ist jemand, der die Extrameile geht. Seine Gedanken und sein leidenschaftlicher Ansatz für die Arbeit sind absolut beeindruckend. Er hat eine ganzheitliche Sicht und ist nicht auf Tech-Themen beschränkt. Seine große Stärke: Er kennt die Anforderungen der Kunden und versteht sie, ohne fragen zu müssen, was sie wollen.

Auch sein Wille, ständig auf dem neuesten Wissensstand zu bleiben, ist in der täglichen Arbeit spürbar. Da der Web3-Bereich hochdynamisch ist, ist das eine Notwendigkeit, und Kevin meistert das mit Bravour.

Erhard Dinhobl AI System Engineer
Trustpilot

Alles pünktlich geliefert, trotz enger Deadlines. Die perfekte Balance zwischen professionellen Standards und kollaborativer Zusammenarbeit.

MyDevConnect Team

Unabhängig bewertet: 4.7/5 auf Google Bewertungen lesen

FAQs

Ehrliche Antworten zu KI-Agenten in der Produktion

Beende jede Woche mit einer einzigen Nachricht. Keine Frist, kein Exit-Gespräch, kein Kleingedrucktes. Wir rechnen wöchentlich ab, du bist also maximal die laufende Woche gebunden.
Es steht in deinem Vertrag: Sag es uns, und wir erstatten diese Woche. Keine Rückfragen, keine Rechnungen zum Streiten, keine Eskalationscalls. Einzige Regel: Erstattungen gelten für die letzte Woche.
Weil Stunden die falsche Metrik sind. Wenn wir auf abrechenbare Stunden optimieren, optimieren wir nicht auf dein Ergebnis. Der Deal ist einfacher: Jede Woche müssen wir die nächste verdienen. Wenn wir das nicht tun, zahlst du nicht. Wir können null Stunden oder sechzig investieren. Was zählt, ist, ob du umgehauen bist.
Wir arbeiten mit Operators, nicht mit Lottogewinnern. Wenn eine Anforderung Physik, Gesetz oder Drittanbieter-Systeme brechen würde, sagen wir das, und wenn wir uns nicht ausrichten können, gehen wir. Die Garantie ist gegenseitig: Du kannst uns jede Woche feuern; wir können uns auch selbst feuern.
Ja, und eine ehrliche. Wir sind ein erfahrenes Produktteam in Österreich, das KI-Agenten und KI-Produkte end to end baut. Anders als reine KI-Agenturen, die ein Feature liefern und wieder weg sind, übernehmen wir den ganzen Build: Architektur, Evals, Billing, Observability. Für Enterprise-KI- und SaaS-Kunden haben wir genau das geliefert. Und wir sagen dir, wann KI das falsche Werkzeug ist, auch wenn das Projekt dadurch kleiner wird.
Agentic SaaS ist ein Produkt, bei dem KI-Agenten die eigentliche Arbeit machen, planen und über Tools hinweg handeln, nicht ein Chatbot, der auf ein Dashboard geschraubt ist. Ja, wir bauen das: die Agenten-Schleife, die Tool-Integrationen und das unspektakuläre Produktions-Fundament (Auth, Billing, Evals, Guardrails, Observability), das darüber entscheidet, ob es echten Nutzern standhält.
Ja. KI-Workflow-Automatisierung ist unser häufigster Agenten-Build: Triage, interne Research, Ops-Pipelines und Aufgaben, die unbeaufsichtigt nach Zeitplan laufen. Wir erden jeden Workflow in Retrieval und Evals, damit du messen kannst, wann das Modell falschliegt, statt es vom Kunden zu erfahren. Wir sagen dir auch, welche Schritte besser bei einer Rules Engine bleiben.
Wir sitzen in Tirol, Österreich, und arbeiten remote-first mit Kunden im DACH-Raum und international. Die Zeitzonen-Überlappung ist groß, und wir liefern in deinem Repo und deiner Cloud (AWS, GCP, Azure oder Self-Hosting), daher spielt es für den Build selten eine Rolle, wo wir sitzen.
Beides – je nachdem, was sinnvoll ist. In 90 % der Business-Use-Cases schlagen gut geprompte Frontier-Modelle (OpenAI, Anthropic, Open-Weights wie Llama) ein eigenes Fine-Tuning – zu einem Bruchteil der Kosten. Fine-Tuning nutzen wir nur, wenn die Aufgabe eng definiert ist, die Daten proprietär sind und die Kostenrechnung aufgeht. Wir sagen dir ehrlich, welcher Fall bei dir vorliegt.
Drei Schichten: strukturierte Outputs mit JSON-Schema-Validierung, Retrieval-Augmented Generation, die das Modell auf deine Quellen erdet, und Evaluation-Harnesses, die echte Antworten bei jedem Deploy gegen das erwartete Verhalten bewerten. Wir liefern keine KI-Features aus, ohne messen zu können, wann sie falschliegen.
Deine Daten liegen dort, wo du es willst, und die Produkte, die wir für dich bauen, laufen unter deiner eigenen Lizenz beim KI-Anbieter – die Datenschutzbedingungen sind also genau die, die du unterschrieben hast. Mit einem Enterprise-Vertrag bei OpenAI, Anthropic, Azure & Co. sind deine Daten vertraglich vom Training ausgeschlossen. Auf einem Standard-Tarif solltest du die Anbieter-AGB prüfen, bevor du Produktionsdaten dort durchschickst. Für sensible Fälle deployen wir Open-Weights-Modelle in deiner eigenen Cloud (AWS Bedrock, GCP Vertex, Self-Hosting), sodass sich die Frage gar nicht erst stellt. Wir nutzen deine Daten nie, um irgendetwas für jemand anderen zu trainieren.
Prototyp: eine Woche. Production-ready mit Evals, Guardrails und Observability: 4–8 Wochen. Das Langsame ist nicht die KI, sondern alles drumherum: Auth, Billing, Rate-Limiting, Content-Moderation, Audit-Logs. Wir haben oft genug ausgeliefert, um zu wissen, wo die Zeit wirklich draufgeht.
Kommt drauf an, was wir bauen. Für RAG und Agenten: LangChain, LangGraph, LlamaIndex und das Vercel AI SDK im Frontend. Für Self-Hosting: vLLM, Ollama, llama.cpp, Hugging Face Transformers. Für Evaluation: Braintrust, Phoenix, OpenAI Evals. Für Observability: LangSmith, Helicone, Langfuse. Wir wählen langweilige, bewährte Tools statt Hype, der KI-Stack ändert sich alle sechs Wochen, also nehmen wir das, was wir sauber wieder rausreißen können.
Prompt-Engineering-Integration in bestehende App: 5.000–15.000 €. RAG-System über eigene Dokumente mit Evals und echter UI: 15.000–40.000 €. Multi-Step-Agent mit Tools, Memory und Guardrails: 40.000–100.000 €+. Laufende API-Kosten kommen extra und hängen von Modell und Volumen ab. Wir budgetieren die API-Kosten direkt ins Angebot, damit du im zweiten Monat keine sechsstellige Überraschung von OpenAI bekommst.
Nicht, wenn wir es richtig bauen. Wir halten die Business-Logik vom Modell getrennt, hinter einer Routing-Schicht, sodass der Wechsel von GPT zu Claude, Gemini oder einem Open-Weight-Modell wie Llama eine Config-Änderung ist und kein Rewrite. Wir liefern in deinem Repo und deiner Cloud, und für sensible oder kostensensible Workloads betreiben wir Open-Weight-Modelle, die du selbst hostest. Dir gehören Code und Infrastruktur. Das Lock-in-Risiko ist real, und wir bauen von Tag eins an dagegen an.
Wenn der gleiche Job mit einem SQL-Query, einer Rules Engine oder einem Formular erledigt ist. Wenn du Latenz unter 200 ms brauchst. Wenn 100 % deterministische Outputs Pflicht sind (Verträge, Buchhaltung, Medizin). Wenn es keine Feedback-Schleife gibt, die Fehler des Modells abfängt. Wir sagen dir „lass es“, wenn der Use-Case es nicht hergibt, auch wenn das das Projekt kleiner macht.
Echte Agenten. Wir bauen AI Agents, die Tools aufrufen (Function Calling, MCP), mehrstufige Pläne ausführen (LangGraph-State-Machines), in deine Datenbanken und APIs lesen und schreiben und unbeaufsichtigt nach Zeitplan laufen. Live-Beispiele: Rechnungstriage-Bots, interne Research-Agenten, Content-Ops-Pipelines, automatische QA-Harnesses. Chatbots sind der langweilige Fall. Agenten, die Arbeit nach vorne bringen, sind dort, wo der Hebel sitzt.
Das ist ein anderer Service: KI Setup Service. Diese Seite dreht sich um KI-Produkte für deine Kund:innen. Wenn dein Ziel ist, deinem eigenen Team Arbeit abzunehmen (interne Prozesse automatisieren, Workshops, Tooling auf deiner eigenen Infrastruktur einrichten), dann fang dort an.

Lern uns kennen

Langfristige Beziehungen statt schneller Gewinne.

Blog
No BS Around Tech Podcast
Bildergalerie