AI Agent 与产品

能在生产环境中存活的 AI Agent 与 AI 产品

我们设计、构建并交付 AI Agent、agentic SaaS 和 LLM 应用,让它们经得起真实用户,而不只是演示。大多数 AI Agent 项目在上线前就死了。我们做的是那些活下来的,并且会提前告诉你什么时候 AI 是错的工具。

任何一周可取消。如果没让你惊艳,最后一周退款。不计工时。

  • 已交付 75+ 产品
  • 10+ 年经验
  • No-Bullshit 保证
// 01

为什么大多数 AI 项目从没上线

40% 的 agentic AI 项目将在 2027 年底前被砍掉 (Gartner, 2025)

项目死在成本、架构和评测上,不是死在模型质量上。模型是简单的那 20%。剩下的 80%,我们从第一天就做,那些决定 Agent 能否经得起真实用户的不起眼的关卡:

  • 先锚定,再生成。 检索增强生成从你的数据源里取事实,让模型用你的数据来回答,而不是凭空想象。
  • 要评测套件,不要凭感觉。 每次部署都对照预期行为打分,让你在客户之前先发现模型什么时候出错。
  • 护栏与可观测性。 结构化输出、校验、追踪,以及按调用计的成本跟踪。你能看到 Agent 做了什么、花了多少钱。
  • 预先定好成本预算。 token 和路由决策在动手之前就建模好,所以 API 账单是一个明细项,而不是第二个月的意外。
// 02

我们做什么

AI Agent 与工作流自动化

我们做能真正执行动作的 AI Agent:调用工具和 API(function calling、MCP)、执行多步骤计划、读写你的系统、无人值守地自动化工作流。发票分拣、内部研究 Agent、内容运营流水线、自动 QA harness。

Agentic SaaS 与 LLM 应用开发

从原型到生产:LLM 驱动的功能和完整的 agentic SaaS,内建鉴权、计费、评测、护栏和可观测性。我们交付整个产品,不是一个卡住的概念验证。

AI 集成与模型策略

我们把前沿模型和开源模型(ChatGPT、Claude、开源权重)嵌入你现有的应用:提示工程、RAG 管道、成本测算合理时做微调,以及成本可控的第三方 AI API。

AI 评估,诚实直说

不确定 AI 是否适合?我们评估你的场景,告诉你它在哪里创造价值、哪里一个 SQL 查询就胜过 Agent。大多数 Agent 项目败在架构、评测和成本,而不是模型质量。我们就是按避免这些来构建的。

// 03

从使用场景到生产

模型是简单的部分。这是每个构建都走的路径,让它真正抵达用户,而不是卡在演示阶段。

01

探查

给使用场景做压力测试。AI 在哪里值得用,哪里一个 SQL 查询或规则引擎更胜一筹。我们在你花钱之前就说清楚。

02

架构

选模型、RAG 还是微调、路由、数据流,以及成本预算,全在写第一行代码之前定下来。

03

锚定

在你自己的数据源上做检索,让答案扎根于你的数据,需要的地方附上引用。

04

评测

一套评测套件,每次部署都对照预期行为给真实响应打分。没有评测,就不上线。

05

护栏与可观测性

结构化输出、校验、兜底、追踪和成本告警,让失败被拦住,而不是被用户发现。

06

上线与交接

鉴权、计费、限流、审计日志、运行手册。生产基建外加干净地交接给你的团队。

// 04

我们构建所用的生产技术栈

枯燥、经过验证、在技术栈变动时能干净拔掉的工具。我们为接下来两年选型,不是为下一篇新闻稿。

LangGraphLangChainLlamaIndexVercel AI SDKRAGMCP结构化输出BraintrustLangfuseLangSmithHeliconevLLMOllama语义路由开源权重模型
// 05

要花多少钱

参考区间。我们在一次短探查之后才报一个固定数字,不会在那之前给。

Prompt 工程整合 €5-15k

在现有应用之上加一个 AI 功能:提示、结构化输出、干净的 UI。

带评测的 RAG 系统 €15-40k

在你自己的文档上做检索,带评测、真实界面和护栏。

多步 Agent €40-100k+

为无人值守运行的工作配上工具、记忆和护栏。

运行时 API 开销另算,并会写进报价单里做预算,所以第二个月不会被模型提供商的六位数账单吓到。
// 06

我们在 AI 工作中遵循哪些原则?

  • 不废话。 我们不会只为了写进新闻稿就往你的项目里塞 AI。
  • 实用解决方案。 我们做的每一个集成都有明确、可量化的业务目的。
  • 诚实建议。 如果 AI 不适合你的情况,我们会直说,并建议更合适的方案。
  • 成本意识。 AI API 不是免费的。我们设计高效的方案,不会悄悄烧掉你的预算。

什么时候诚实的答案是「别做」?

经常。

我们宁可砍掉一个使用场景,也不愿交付一个在生产环境里会崩的 Agent。

// 实证

用案例说话,而不是承诺

这些是精选项目,并非我们的全部作品。自 2018 年以来我们已交付 75+ 款产品。

客户怎么说

Google

过去 4 年里与 Wavect 一起建立了多家风投支持的初创公司。 世界一流的团队。他们在探索阶段是出色的思想伙伴,在开发阶段是可靠且可预测的工程师,整体上也是非常棒的合作伙伴。强烈推荐与这个团队合作你的下一个项目。

Joseph Miller
LinkedIn

认识 Kevin 是一件非常令人兴奋的事!他对自己关注的话题充满热情,是一个愿意走多一步的人。他的思考方式以及他对工作的热忱令人印象深刻。他具备整体视角,不只局限于技术话题。他最大的优势在于:他了解客户的需求,并能在无需多问的情况下理解它们。

他持续掌握最新知识的意愿也体现在日常工作中。鉴于 web3 领域高度动态,这是一种必要,而 Kevin 处理得游刃有余。

Erhard Dinhobl AI System Engineer
Trustpilot

准时交付所有工作,即使时间紧迫。 专业标准与协作工作关系的完美平衡。

MyDevConnect Team

独立平台评分:4.7/5(Google) 查看评价

常见问题

关于生产环境 AI Agent 的诚实回答

通过一条消息即可结束任何一周。无通知期、无离场访谈、无附加条款。我们按周开票,你最多承诺当前一周。
合同里就是这么写的:告诉我们,我们会退还那一周的费用。无需问询、无需争议账单、无需升级电话。唯一规则:退款适用于最近一周。
因为工时是错误的衡量标准。如果我们以计费工时为优化目标,就不是在为你的成果优化。我们的协议更简单:每一周,我们都赢得下一周。如果做不到,你不付款。我们可以投入零小时或六十小时。重要的是你是否被惊艳。
我们和操盘手合作,不和买彩票的人合作。如果某个要求需要打破物理定律、法律或第三方系统,我们会明说,谈不拢就走人。这个保证是双向的:你可以任何一周解雇我们,我们也可以解雇自己。
是,而且是诚实的那种。我们是奥地利一支资深产品团队,端到端打造 AI Agent 和 AI 产品。和那些交付一个功能就走人的纯 AI 公司不同,我们接手整个构建:架构、评测、计费、可观测性。我们已经为 企业 AI 和 SaaS 客户 交付过这些。而且我们会告诉你什么时候 AI 是错的工具,哪怕这会让项目缩水。
Agentic SaaS 是一种产品,核心工作由 AI Agent 完成,它跨工具做规划和执行,而不是在仪表盘上拧一个聊天机器人。能做:Agent 循环、工具集成,以及决定它能否经得起真实用户的那些不起眼的生产基建(鉴权、计费、评测、护栏、可观测性)。
能。AI 工作流自动化是我们最常做的 Agent 构建:分拣、内部研究、运营流水线,以及按计划无人值守运行的任务。我们把每个工作流锚定在 检索 和评测上,让你能衡量模型什么时候出错,而不是等客户来告诉你。我们也会告诉你哪些步骤更适合留给规则引擎。
我们在奥地利蒂罗尔,以远程优先的方式与 DACH 地区及国际客户合作。时区重叠很大,我们在你的代码仓库和你的云上(AWS、GCP、Azure 或自托管)交付,所以我们在哪里通常不影响构建。
两者都做,看情况。90% 的业务场景中,提示工程做得好的前沿模型(OpenAI、Anthropic、Llama 等开源权重)以更低成本胜过自训微调。我们只在任务非常具体、数据是专有的、成本测算合理时才做微调。我们会诚实告诉你属于哪种情况。
三层防护:用 JSON Schema 校验结构化输出、用检索增强生成把模型锚定到你自己的数据源、在每次部署时用评测套件对真实响应打分。没有可衡量错误率的方法,我们不会上线 AI 功能。
你的数据存放在你指定的位置。我们为你构建的产品运行在你自己的 AI 提供商许可证下,所以隐私条款就是你签的那一份。如果你和 OpenAI、Anthropic、Azure 等签了企业合同,你的数据在合同上就被排除在训练之外。如果你用的是默认套餐,把生产数据接进去之前请先看清楚提供商条款。对敏感场景,我们在你自己的云上(AWS Bedrock、GCP Vertex 或自托管)部署开源权重模型,问题就不存在了。我们绝不会用你的数据为其他人训练任何东西。
原型:一周。带评测、护栏和可观测性的生产就绪版本:4-8 周。慢的不是 AI,是周边一切:鉴权、计费、限流、内容审核、审计日志。我们交付过足够多的项目,知道时间到底花在哪里。
看做什么。RAG 和 Agent:LangChain、LangGraph、LlamaIndex,前端配 Vercel AI SDK。自托管推理:vLLM、Ollama、llama.cpp、Hugging Face Transformers。评测:Braintrust、Phoenix、OpenAI evals。可观测性:LangSmith、Helicone、Langfuse。我们选枯燥、经过验证的工具,不追风口,AI 栈每六周就变一次,所以我们只选可以干净拔掉的东西。
在现有应用上做 prompt 工程整合:5,000-15,000 欧元。给你自己文档做的 RAG 系统,带评测和真实 UI:15,000-40,000 欧元。带工具、记忆和护栏的多步 Agent:40,000-100,000 欧元起。运行时 API 成本另算,看模型和 token 量。我们会把 API 预算直接写进报价单,省得你第二个月被 OpenAI 的账单吓到。
只要做得对就不会。我们把业务逻辑和模型隔开,放在一个路由层后面,所以把 GPT 换成 Claude、Gemini 或 Llama 这样的开源权重模型,是改配置,不是重写。我们在你的代码仓库和你的云上交付,对敏感或对成本敏感的负载,我们运行由你自己托管的开源权重模型。代码和基础设施都归你。锁定风险是真实存在的,我们从第一天就按防住它来设计架构。
一个 SQL 查询、一个规则引擎或一个表单就能搞定的时候。需要 200ms 以下延迟的时候。需要 100% 确定性输出的时候(法律合同、财务记账、医疗剂量)。没有反馈回路来发现模型出错的时候。如果场景不值得,我们会直接说「别做」,哪怕这意味着项目缩水。
真 Agent。我们做的 AI Agent 会调用工具(function calling、MCP),执行多步骤计划(LangGraph 状态机),读写你的数据库和 API,按计划无人值守运行。已交付案例:发票分拣机器人、内部研究 Agent、内容运营流水线、自动 QA harness。聊天机器人是无聊的情况。能推动工作的 Agent 才是杠杆所在。
那是另一项服务:AI Enablement。这个页面讲的是为你的客户构建 AI 产品。如果你的目标是给自己团队减负(自动化内部流程、做工作坊、在你自己的基础设施上搭建工具),请从那里开始。

了解我们

长期关系,而非快速收益。

博客
No BS Around Tech 播客
图集