Piloto de agente de IA en 30/60/90 días: el plan de despliegue a producción para pymes austriacas

Resumen

Un despliegue de un agente de IA dura unos 90 días. Días 0-30: acotar y reducir el riesgo, un flujo de trabajo delimitado y de alto volumen, con métrica de éxito y criterio de abandono fijados por adelantado, sistemas y permisos inventariados, logging y un conjunto de evaluación con casos reales, puertas de aprobación humana. Días 31-60: construir contra un sandbox y operar en modo sombra (el agente propone, una persona aprueba), midiendo contra el conjunto de evaluación y ajustando los permisos al mínimo privilegio. Días 61-90: producción limitada con puertas de aprobación, vigilar el coste por acción y la tasa de error, runbook y rollback, entregar la propiedad al equipo y decidir: ampliar, iterar o detener. Las partes difíciles son los permisos, el diseño de la aprobación, las evaluaciones, el logging y una entrega limpia, no el modelo. El RGPD aplica ya; transparencia del EU AI Act y la mayoría de obligaciones de alto riesgo desde el 2 de agosto de 2026.

Un despliegue realista de un agente de IA dura unos 90 días. En los días 0 a 30 acotas y reduces el riesgo: eliges un flujo de trabajo delimitado y de alto volumen, lo mapeas, defines la métrica de éxito y un criterio de abandono por adelantado, inventarías los sistemas y permisos que el agente necesita, y montas el logging y un conjunto de evaluación con casos reales. En los días 31 a 60 construyes contra un sandbox y operas en modo sombra, donde el agente propone y una persona aprueba, mientras mides contra el conjunto de evaluación y ajustas los permisos al mínimo privilegio. En los días 61 a 90 despliegas sobre una porción del volumen real con puertas de aprobación, vigilas el coste por acción y la tasa de error, escribes un runbook y un rollback, entregas la propiedad al equipo y decides: ampliar, iterar o detener. Las partes difíciles son los permisos, el diseño de la aprobación, las evaluaciones, el logging y una entrega limpia, no el modelo.

Esto es el cómo, escrito desde la práctica. Para el porqué mueren estos proyectos, nuestro artículo complementario sobre por qué se cancelan los proyectos de agentes de IA cubre los grupos de fallos; este es el plan que los evita. Las fechas regulatorias son de mediados de 2026 y van matizadas allí donde están en movimiento.

¿Quieres planificar y reducir el riesgo de un despliegue de agente de 90 días contigo?

Reservar consulta gratuita

Primero: ¿es un agente siquiera la herramienta correcta?

Un agente de IA es un sistema en el que el modelo decide sus propios pasos y ejecuta acciones contra tus sistemas a través de herramientas, trabajando en varios pasos hacia un objetivo con poca intervención humana. Quita cualquiera de esos elementos y se reduce a algo más simple y normalmente mejor. La mayoría de los proyectos de "agente" fallidos deberían haber sido un asistente RAG o un flujo de trabajo programado. Elige la herramienta más barata que haga el trabajo.

Lo que necesitas	Herramienta correcta
Respuestas de un solo turno desde una base de conocimiento, con coste predecible y fácil de auditar	Asistente RAG, no un agente
Pasos fijos, basados en reglas y predecibles sobre datos estructurados	RPA o un flujo de trabajo programado, no un agente
Preguntas y respuestas conversacionales sin acciones contra sistemas	Un chatbot, no un agente
Objetivo abierto, número de pasos impredecible, debe ejecutar acciones entre sistemas mediante herramientas	Un agente de IA, con barreras de seguridad, y asume el mayor coste y el riesgo de error acumulado

La regla práctica: reserva los agentes para flujos de trabajo donde el razonamiento adicional cambia el resultado de negocio. Si los pasos nunca varían, un agente es la herramienta equivocada, más cara y menos auditable.

Días 0 a 30: acotar y reducir el riesgo

Todo el piloto se gana o se pierde aquí. Elige un flujo de trabajo de alto volumen y con límites claros, y anota, antes de construir nada: el único número que intentas mover, la línea base previa a las herramientas (empieza a medir ya) y un criterio de abandono (por ejemplo, detener si la adopción está por debajo de un umbral fijado en la semana cuatro, o si los datos están demasiado sucios, o el impacto es demasiado pequeño). Inventaría cada sistema y permiso que el agente tocará y planifica el mínimo privilegio desde el principio. Monta el logging y la observabilidad, y construye un pequeño conjunto de evaluación con casos reales; 20 a 50 tareas extraídas de fallos reales son un gran comienzo. Decide qué acciones necesitan una puerta de aprobación humana, sobre todo cualquier cosa irreversible.

Días 31 a 60: construir y operar en sombra

Construye contra un sandbox, nunca contra sistemas en vivo. Luego opera en modo sombra: el agente procesa las mismas entradas reales que tu equipo y registra lo que haría, pero las personas siguen siendo quienes deciden al final, así que mides su juicio antes de que toque nada. Usa una escalera de autonomía, primero supervisada, luego aprobaciones solo por excepción o por muestreo cuando las métricas se lo ganen. Puntúa de forma ligera en el día 30 y el día 60 contra el conjunto de evaluación, para que la decisión del día 90 sea una confirmación, no una sorpresa. Baja los permisos al mínimo privilegio y haz red-teaming deliberado de los modos de fallo: inyección de prompts, llamadas inseguras a herramientas y la petición ambigua del mundo real que nunca aparece en una demo. Diseñar para la entrada desordenada, no para el camino feliz, suele ser lo que separa un piloto que llega a producción de uno que no.

Días 61 a 90: producción limitada y entrega

Despliega sobre una porción del volumen real con las puertas de aprobación todavía activas, y empieza con una postura de auditoría primero: observa el comportamiento, luego aprieta los controles. Monitoriza el coste por acción y la tasa de error, y aplica presupuestos estrictos de tokens y coste en la capa de infraestructura antes de cada llamada, no en un informe posterior. Escribe el runbook y el rollback: define el disparador que revierte automáticamente a la versión anterior si una métrica empeora. Luego haz la parte que la mayoría de los equipos se salta: entrega la propiedad al equipo. La autoridad de decisión, quién puede cambiar el agente y quién es responsable, debe definirse antes del despliegue más amplio, y el equipo tiene que ser capaz de leer las trazas y ejecutar el runbook sin las personas que lo construyeron. Por último, toma la decisión contra tu métrica del día 0 y tu criterio de abandono: ampliar, iterar o detener.

Las partes difíciles, y cómo acertar con ellas

Permisos y mínimo privilegio. El riesgo de "excessive agency" de OWASP se remonta a un exceso de funcionalidad, permisos y autonomía. Da al agente acceso de mínimo privilegio, acotado a la tarea y limitado en el tiempo, y su propia identidad, para que puedas aplicar el mínimo privilegio y reconstruir lo que pasó tras un incidente.
Diseño de la aprobación humana. El patrón es proponer y luego aprobar: el agente se detiene ante una acción de alto impacto o irreversible y una persona la aprueba, edita o rechaza con todo el contexto. No necesitas aprobar cada acción, pero sí necesitas poner una puerta a las que pueden causar daño.
Evaluaciones y regresión. Tres capas: comprobaciones deterministas por paso, muestreo en producción para detectar la deriva y revisión humana periódica para calibrar. Probar un agente significa probar su juicio, no solo una salida.
Logging y rastro de auditoría. Registra cada llamada al modelo, cada invocación de herramienta y cada decisión. Sin ello no puedes depurar, mejorar ni demostrar lo que hizo el agente, y bajo el RGPD tienes que poder demostrarlo.
Coste por acción y fallback. Los flujos agénticos pueden costar varias veces más por tarea que un chatbot porque el contexto se reenvía en cada paso. Mide el coste por resultado desde el primer día, enruta los pasos baratos a modelos pequeños y define qué pasa cuando una herramienta o el modelo falla.
Entrega limpia. Un agente que solo entiende tu proveedor es un lastre, no una victoria. El equipo debe ser su dueño.

"El modelo es ahora la parte fácil. Los 90 días tratan de permisos, puertas de aprobación, evaluaciones y una entrega limpia. El modo sombra es el paso de mayor apalancamiento: deja que el agente demuestre su juicio con entradas reales mientras una persona sigue al volante, y la decisión de salida a producción se toma sola."

Por qué fracasan tantos proyectos de agentes

Gartner prevé que más del 40 por ciento de los proyectos de IA agéntica se cancelarán para finales de 2027, citando costes crecientes, valor de negocio poco claro y controles de riesgo inadecuados. Los fracasos se agrupan en formas reconocibles: alucinación, latencia, deuda de evaluación, coste por acción descontrolado, entrega ausente, datos sucios, ambición de alcance y lagunas de auditoría. El plan de 90 días de arriba está construido para sacar a la luz cada una de ellas pronto, en los primeros 30 días, donde son baratas de corregir, en lugar del sexto mes, donde matan el proyecto. Desglosamos los grupos en por qué se cancelan los proyectos de agentes de IA, y las habilidades de orquestación detrás de operar bien varios agentes en el foco es el cuello de botella.

La parte de la UE y Austria

Un agente que actúa sobre datos personales cae de lleno en el RGPD. Debes mantener un rastro de auditoría (el principio de responsabilidad proactiva implica que tienes que demostrar lo que pasó), aplicar la minimización de datos y el mínimo privilegio, y proporcionar una supervisión humana significativa para cualquier decisión automatizada relevante, no un sello de goma simbólico. También necesitas un acuerdo de tratamiento de datos firmado con cada proveedor de modelo y de nube antes de que les fluyan datos personales, y los proveedores estadounidenses conllevan un riesgo residual de transferencia incluso con residencia en la UE. La autoridad austriaca de protección de datos te trata a ti, la empresa que despliega, como el responsable del tratamiento, así que la responsabilidad es tuya. Sobre el EU AI Act, las obligaciones de transparencia del Artículo 50, incluido informar a las personas de que tratan con una IA, se aplican desde el 2 de agosto de 2026, igual que la mayoría de las obligaciones de alto riesgo. Un Digital Omnibus propuesto que aplazaría algunos plazos de alto riesgo se acordó provisionalmente en 2026 pero todavía no es ley, así que planifica contra la fecha del 2 de agosto de 2026.

Preguntas frecuentes

¿Cuánto tarda en desplegarse un agente de IA?

Planifica unos 90 días: 30 para acotar y reducir el riesgo de un flujo de trabajo, 30 para construir y operar en modo sombra, y 30 para producción limitada y entrega. Puntúa en los días 30 y 60 para que la decisión del día 90 (ampliar, iterar o detener) no sea ninguna sorpresa.

¿Qué es la aprobación con humano en el bucle?

El agente propone una acción y una persona la aprueba, edita o rechaza antes de cualquier efecto secundario. Los frameworks de agentes modernos pausan la ejecución y muestran todo el contexto para acciones de alto impacto o irreversibles, de modo que pones una puerta a las peligrosas sin aprobar cada paso.

¿Cómo evito que un agente de IA cause daño?

Permisos de mínimo privilegio, acotados a la tarea y limitados en el tiempo; puertas de aprobación humana en acciones irreversibles; un sandbox más red-teaming antes de producción; presupuestos estrictos de coste y de pasos aplicados antes de cada llamada; y un rollback y un runbook definidos.

¿Necesito siquiera un agente?

Solo si el flujo de trabajo tiene un objetivo abierto, un número impredecible de pasos y debe ejecutar acciones entre sistemas. De lo contrario usa RAG para responder preguntas o un flujo de trabajo programado para pasos fijos, ambos más baratos y más auditables.

¿Cuánto cuesta operar un agente de IA?

Más que un chatbot. Los flujos agénticos reenvían el contexto en cada paso, así que el coste por tarea puede ser varias veces mayor. Mide el coste por acción desde el primer día y aplica presupuestos en la capa de infraestructura en vez de descubrir la factura más tarde.

¿Qué es el modo sombra?

El agente corre en paralelo al proceso humano sobre las mismas entradas y registra lo que haría, mientras las personas siguen siendo quienes deciden al final. Mides su exactitud y su juicio antes de concederle ningún control real.

¿Qué es un criterio de abandono y por qué fijarlo primero?

Un umbral acordado de antemano, como una adopción por debajo de una marca fijada en la semana cuatro, que dispara la detención. Definirlo el día 0 evita la deriva por costes hundidos, lo que importa dado que se prevé que se cancele una gran parte de los proyectos de agentes.

¿Qué son las evaluaciones y por qué construirlas antes que el agente?

Un conjunto de tareas de casos reales contra el que puntúas al agente, empezando con 20 a 50 extraídas de fallos reales. Escribir las evaluaciones primero, y luego construir para superarlas, es como detectas regresiones en lugar de enviarlas a producción.

Agentes de IA en Austria, ¿cuál es la situación legal?

El RGPD aplica por completo ya: rastro de auditoría, minimización de datos, supervisión humana significativa para decisiones automatizadas relevantes y un acuerdo de tratamiento de datos con tu proveedor de modelo. La transparencia del EU AI Act y la mayoría de las obligaciones de alto riesgo se aplican desde el 2 de agosto de 2026; un aplazamiento propuesto todavía no es ley.

¿Cómo entrego el agente para que mi equipo sea su dueño?

Define la autoridad de decisión y la responsabilidad antes del despliegue más amplio, documenta un runbook y asegúrate de que el equipo puede leer las trazas y operar el agente sin las personas que lo construyeron. Un agente que solo entiende el proveedor es un lastre.

Reflexiones finales

El despliegue de un agente de IA no es un problema de modelo, es un problema de operaciones con un modelo dentro. Los 90 días que funcionan son los que se dedican a un flujo de trabajo delimitado, a permisos de mínimo privilegio, a un conjunto de evaluación construido con fallos reales, al modo sombra antes de cualquier control real y a una entrega que deja a tu equipo como dueño de la cosa.

Elige el flujo de trabajo más pequeño donde el razonamiento de verdad cambia el resultado, fija la métrica y el criterio de abandono el día 0, y deja que el modo sombra le gane al agente su autonomía. Haz eso y aterrizarás en el lado correcto de los proyectos que llegan a producción, en lugar del 40 por ciento que se cancela.

¿Quieres acotar el primer flujo de trabajo del agente y probarlo en modo sombra contigo?