Kevin Riedl

13 min 阅读 · 14 Jun 2026

30/60/90 天 AI 智能体试点:面向奥地利中小企业的生产环境上线计划

一次现实的 AI 智能体上线大约需要 90 天。第 0 到 30 天用来界定范围和降低风险:挑选一个边界清晰、高频次的工作流,把它梳理清楚,事先定义成功指标和叫停标准,盘点智能体需要的系统和权限,并搭好日志记录以及一套取自真实案例的评测集。第 31 到 60 天针对沙箱构建,并以影子模式运行,由智能体提出建议、人来批准,同时对照评测集进行衡量,并将权限收紧到最小权限。第 61 到 90 天在保留批准关卡的前提下投入一小部分真实流量,盯紧每次动作的成本和错误率,编写运行手册和回滚方案,把所有权移交给团队,并做出决定:扩大、迭代还是叫停。难点在于权限、批准设计、评测、日志和一次干净的移交,而不是模型本身。

这篇讲的是怎么做,源自实战。至于这些项目为什么会死,我们的配套文章 为什么 AI 智能体项目会被取消 梳理了失败的几大类型;这篇则是避开它们的计划。文中的监管时间点为 2026 年年中的状态,在仍有变动之处都做了保留说明。

想和我们一起规划并为 90 天的智能体上线降低风险吗?

 预约免费咨询

首先:智能体真的是对的工具吗?

一个 AI 智能体 是这样一种系统:模型自行决定步骤,并通过工具对你的系统执行动作,在有限的人工介入下分多步朝着目标推进。去掉其中任何一项,它就退化成更简单、通常也更好的东西。大多数失败的"智能体"项目本应是一个 RAG 助手或一段写好的工作流。挑选能完成任务的最便宜的工具。

你需要什么对的工具
从知识库给出单轮回答,成本可预测、易于审计RAG 助手,而非智能体
在结构化数据上执行固定的、基于规则的、可预测的步骤RPA 或写好的工作流,而非智能体
不对系统执行动作的对话式问答一个聊天机器人,而非智能体
开放式目标、步骤数量不可预测、必须通过工具跨系统执行动作一个带护栏的 AI 智能体,并接受更高的成本和误差累积的风险

经验法则:把智能体留给那些额外推理会改变业务结果的工作流。如果步骤从不变化,智能体就是那个更贵、更难审计的错误工具。

第 0 到 30 天:界定范围、降低风险

整个试点的成败都在这里决定。挑一个高频次、边界清晰的工作流,并在动手构建之前写下来:你要推动的那一个数字、引入工具前的基线(现在就开始测量),以及一个叫停标准(例如,若第四周采用率低于设定门槛就停,或数据太脏,或影响太小)。盘点智能体会触及的每一个系统和权限,从一开始就按最小权限来规划。搭好日志记录和可观测性,并用真实案例构建一套小型评测集,取自真实失败的 20 到 50 个任务就是很好的起点。决定哪些动作需要人工批准关卡,尤其是任何不可逆的动作。

第 31 到 60 天:构建并以影子模式运行

针对沙箱构建,绝不针对线上系统。然后以影子模式运行:智能体处理与你的团队相同的真实输入,并记录它会做什么,但人始终是最终决策者,这样你能在它触碰任何东西之前衡量它的判断力。采用自主权的阶梯,先是有人监督,待指标过关后再转为仅在例外时或抽样批准。在第 30 天和第 60 天对照评测集做轻量打分,让第 90 天的决定是一次确认,而非意外。把权限收紧到最小权限,并有意识地对失败模式做红队演练:提示注入、不安全的工具调用,以及演示里永远不会出现的那种现实中的模糊请求。为杂乱的输入而设计,而不是为顺畅路径而设计,往往正是能上线的试点和不能上线的试点之间的分水岭。

第 61 到 90 天:有限生产环境与移交

在保留批准关卡的前提下投入一小部分真实流量,并以审计优先的姿态开始:先观察行为,再收紧控制。监控每次动作的成本和错误率,并在每次调用之前于基础设施层强制执行硬性的 token 和成本预算,而不是事后在报告里看到。编写运行手册和回滚方案:定义那个一旦某项指标退化就自动回退到上一版本的触发条件。然后做大多数团队会跳过的那一步:把所有权移交给团队。决策权,谁能改动智能体、谁来负责,必须在更大范围铺开之前定义清楚,团队也必须能在不依赖构建它的那些人的情况下读懂追踪记录并执行运行手册。最后,对照你第 0 天的指标和叫停标准做出判断:扩大、迭代还是停止。

难点,以及如何把它们做对

  • 权限与最小权限。 OWASP 的"excessive agency"风险可追溯到过多的功能、权限和自主权。给智能体按任务限定、有时限的最小权限访问,以及它自己的身份,这样你才能强制执行最小权限,并在事件发生后重建出究竟发生了什么。
  • 人工批准设计。 模式是先提议再批准:智能体在高影响或不可逆的动作前暂停,由人在完整上下文下批准、修改或拒绝。你不必批准每一个动作,但你必须给那些可能造成损害的动作设上关卡。
  • 评测与回归。 三层:每一步的确定性检查、生产环境中的抽样以捕捉漂移,以及定期的人工复核来校准。测试一个智能体意味着测试它的判断力,而不只是某一个输出。
  • 日志与审计追踪。 追踪每一次模型调用、每一次工具调用和每一个决定。没有它,你无法调试、改进或证明智能体做过什么,而在 GDPR 之下你必须能够证明。
  • 每次动作的成本与降级处理。 智能体式流程每个任务的成本可能是聊天机器人的数倍,因为每一步都会重新发送上下文。从第一天起就追踪每个结果的成本,把便宜的步骤路由到小模型,并定义当某个工具或模型出错时会发生什么。
  • 干净的移交。 一个只有你的供应商懂的智能体是负担,不是胜利。团队必须拥有它。
Kevin Riedl

"如今模型是简单的那部分。这 90 天讲的是权限、批准关卡、评测和一次干净的移交。影子模式是杠杆最高的那一步:让智能体在真实输入上证明它的判断力,而人仍握着方向盘,那么上线的决定就会自己做出来。"

为什么这么多智能体项目会失败

Gartner 预测,到 2027 年底将有超过 40% 的智能体式 AI 项目被取消,原因在于不断攀升的成本、不清晰的业务价值和不充分的风险管控。这些失败聚成几种可辨认的形态:幻觉、延迟、评测欠债、失控的每次动作成本、缺失的交接、脏数据、范围贪婪和审计缺口。上面的 90 天计划正是为了让其中每一项尽早暴露而构建的,让它们在头 30 天里便宜地修好,而不是拖到第六个月把项目搞死。我们在 为什么 AI 智能体项目会被取消 中拆解这些类型,并在 焦点才是瓶颈 中讲述把多个智能体运作好背后的编排功夫。

欧盟与奥地利这部分

一个对个人数据采取行动的智能体,正落在 GDPR 的中心。你必须保留审计追踪(问责原则意味着你得证明发生过什么),落实数据最小化和最小权限,并对任何重大的自动化决定提供有意义的人工监督,而不是象征性的盖章。在个人数据流向之前,你还需要与每一家模型和云服务商签好数据处理协议,而美国服务商即便在欧盟驻留也仍带有残余的数据传输风险。奥地利数据保护局把你这家部署方视为数据控制者,所以责任在你。关于 EU AI Act,第 50 条下的透明度义务,包括告知人们他们正在与一个 AI 打交道,自 2026 年 8 月 2 日起适用,大多数高风险义务也是如此。一项拟议的 Digital Omnibus 会推迟某些高风险的截止期限,它已在 2026 年获得临时一致,但尚未成为法律,因此请按 2026 年 8 月 2 日这个日期来规划。

常见问题

上线一个 AI 智能体需要多久?
大约规划 90 天:30 天用来界定范围、为一个工作流降低风险,30 天用来构建并以影子模式运行,30 天用于有限生产环境和移交。在第 30 天和第 60 天打分,让第 90 天扩大、迭代还是叫停的决定不出意外。
什么是人在回路的批准?
智能体提议一个动作,由人在产生任何副作用之前批准、修改或拒绝它。现代智能体框架会暂停运行,并为高影响或不可逆的动作呈现完整上下文,这样你就给危险动作设了关卡,而无需批准每一步。
我如何防止 AI 智能体造成损害?
按任务限定、有时限的最小权限;在不可逆动作上设人工批准关卡;上生产前用沙箱加红队演练;在每次调用之前强制执行硬性的成本和步骤预算;以及一套定义好的回滚和运行手册。
我到底需不需要智能体?
只有当工作流有开放式目标、步骤数量不可预测、且必须跨系统执行动作时才需要。否则用 RAG 来回答问题,或用写好的工作流来处理固定步骤,两者都更便宜、更易审计。
运行一个 AI 智能体要花多少钱?
比聊天机器人多。智能体式流程每一步都重新发送上下文,所以每个任务的成本可能高出数倍。从第一天起追踪每次动作的成本,并在基础设施层强制执行预算,而不是事后才发现账单。
什么是影子模式?
智能体在相同的输入上与人工流程并行运行,并记录它会做什么,而人仍是最终决策者。你在赋予它任何真实控制权之前先衡量它的准确性和判断力。
什么是叫停标准,为什么要先设它?
一个事先约定的阈值,比如第四周采用率低于设定门槛,触发停止。在第 0 天定义它能防止沉没成本式的漂移,鉴于预计有很大一部分智能体项目会被取消,这一点尤为重要。
什么是评测,为什么要在做智能体之前先构建它?
一套你用来给智能体打分的真实案例任务,从取自真实失败的 20 到 50 个开始。先写评测、再去构建以通过它们,这才是你发现回归而不是把回归发布出去的办法。
奥地利的 AI 智能体,法律立场如何?
GDPR 现在已全面适用:审计追踪、数据最小化、对重大自动化决定的有意义人工监督,以及与你的模型服务商签订的数据处理协议。EU AI Act 的透明度义务和大多数高风险义务自 2026 年 8 月 2 日起适用;一项拟议的推迟尚未成为法律。
我如何移交智能体,让我的团队拥有它?
在更大范围铺开之前定义好决策权和问责,记录一份运行手册,并确保团队能在不依赖构建它的那些人的情况下读懂追踪记录并操作智能体。一个只有供应商懂的智能体是负担。

最终思考

AI 智能体上线不是一个模型问题,而是一个里面装着模型的运营问题。真正奏效的那 90 天,是花在一个边界清晰的工作流、最小权限、一套用真实失败构建的评测集、在任何真实控制之前先走影子模式,以及一次让你的团队最终拥有这个东西的移交上。

挑选那个推理真正会改变结果的最小工作流,在第 0 天就设好指标和叫停标准,让影子模式为智能体挣得它的自主权。做到这一点,你就会落在能上线的那批项目的对的一侧,而不是被取消的那 40% 里。

想和我们一起界定第一个智能体工作流并做影子测试吗?

 预约免费咨询
Kevin Riedl

13 min 阅读 · 14 Jun 2026