Tuve una llamada interesante el domingo. Una línea se me quedó. El foco es el nuevo bottleneck desde que los LLMs se volvieron buenos. No escribir código. No arreglar bugs. Controlar la orquestación. Pasado cierto número de agents, la calidad del output baja, y el trabajo se traslada de tipear a decidir qué agent corre, con qué contexto, contra qué checks. El nuevo skill set es foco, gestión de contexto y QA. Después de un año corriendo engagements reales de clientes donde la mayor parte del tiempo de teclado ahora es supervisión de agents, estoy de acuerdo.
Este post va sobre por qué existe el techo, cómo se ve en la práctica y cómo mantenemos el número de agents por debajo del techo en builds reales de Wavect.
¿Construyendo con AI agents?
Reserva Consultoría GratuitaDurante la mayor parte de la historia del software, el bottleneck fue el throughput. Qué tan rápido puede un ingeniero senior convertir una spec en código funcional. Las herramientas se medían por cuánto quitaban de ese loop. Autocomplete, snippets, refactoring del IDE, luego Copilot, luego coding agents completos.
Para 2026, ese loop ya no existe en su mayor parte excepto para el 10% más duro del trabajo. Un operador competente corriendo un coding agent puede producir más código en un día del que un equipo de tres podía hace unos años. El constraint se movió.
El nuevo constraint no es "¿puede el agent escribir el código?". Es "¿tengo suficiente atención restante para verificar lo que produjo el agent, rutear la siguiente tarea al agent correcto y mantener el context window de cada agent lo suficientemente limpio como para que el output se mantenga honesto?". Eso es un problema de foco, no de tipeo.
Cualquiera que haya corrido más de dos agents en paralelo ha llegado a un momento que se siente así. El Agent A produce código que parece bien. El Agent B produce un refactor que entra en conflicto con el Agent A. El Agent C sugiere un test que no atrapa ninguno de los dos. Pasas más tiempo reconciliándolos del que ahorraste paralelizando. Añades un cuarto agent para triagear los conflictos. Introduce nuevos.
Ese es el techo. No es un número fijo. Se mueve según tres variables.
De los engagements donde hemos corrido más de dos coding agents en paralelo, los modos de fallo se agrupan en siete categorías. Listados en orden de frecuencia.
Si el loop de tipeo está mayormente automatizado, el bottleneck es la atención del operador. Tres skills deciden si el operador escala o se atasca.
1. Disciplina de foco. Saber cuántos agents puedes supervisar sin caída de calidad. Tratar ese número como un constraint duro, no un objetivo a superar. La mayoría de operadores que hemos contratado llegan a su techo en tres agents concurrentes. Algunos se sienten cómodos en cinco. Ninguno que hayamos visto corre diez sin que caiga la calidad.
2. Gestión de contexto. Saber cuándo resetear un agent, cuándo resumir una conversación larga, cuándo arrancar un contexto fresco para la misma tarea y cuándo mantener historia. Esta es la parte del trabajo que no existía hace tres años. El ecosistema MCP está empezando a lanzar handoffs estructurados de contexto, lo que ayuda, pero el operador todavía tiene que elegir qué mantener.
3. Diseño de quality assurance. Si el operador no puede leer cada output, la suite de evals tiene que hacerlo. QA deja de ser una fase y se vuelve el loop. Tests, snapshot checks, regression suites, behavioral evals, smoke runs después de cada commit del agent. Cuantos más agents corres, más peso lleva tu stack de QA.

"El techo no es un problema de herramientas. Es un problema de atención. Comprar un agent mejor no lo sube. Invertir en evals sí."
En cada engagement de IA que corremos en Wavect, la ratio operador-a-agent se establece desde el inicio y se ajusta semanalmente. Las reglas a las que volvemos.
Nada de esto es revolucionario. Refleja cómo operan los equipos sin IA. Lo interesante es que ahora aplica a una sola persona corriendo un enjambre de agents.
Mueve el listón de contratación. El ingeniero más valioso en 2026 no es el tipista más rápido. Es el que puede mantener cinco agents productivos sin que la calidad de su output derive. Eso es disciplina de foco, disciplina de gestión de contexto y disciplina de QA todo junto. Podemos entrenar cada una de esas. No podemos entrenar del todo la habilidad de notar que un agent ha empezado a mentir sobre lo que hizo. Esa parte viene de la experiencia.
Esto también es por qué el rol de fractional CTO está cambiando. Hace unos años el valor era criterio técnico y velocidad de entrega. Hoy, la mitad del valor es calibrar la capacidad de supervisión de agents de un equipo early y construir el andamiaje de evals que permite que esa capacidad escale de forma segura. Lo vemos en casi cada engagement AI-heavy.
¿Significa esto que los equipos pequeños le ganan a los grandes ahora? Los equipos pequeños con andamiaje fuerte de evals le ganan a los equipos grandes con uno débil. El headcount deja de ser el proxy. La capacidad de supervisión sí.
¿Los coding agents harán esto más fácil? Mejores coding agents elevan la calidad individual del output pero no la capacidad de supervisión. El techo se mueve lentamente porque la atención es el constraint vinculante.
¿Y la supervisión agent-sobre-agent? Algunos equipos lanzan "reviewer agents" que chequean coding agents. Ayudan en los márgenes. No resuelven el problema de foco porque alguien todavía tiene que supervisar al reviewer. Las capas no eliminan el presupuesto de atención del operador, lo gastan de forma distinta.
¿Cómo sabes que un agent ha empezado a derivar? Tres señales. El output es más confiado de lo que el contexto justifica. El agent deja de hacer preguntas aclaratorias. Tests que solían fallar ahora pasan sin cambios de código. Cualquiera de esas es la señal para resetear contexto.
¿Esto es solo ingeniería, o aplica también a trabajo no-code? Aplica en todos lados donde los agents tocan. Vemos el mismo patrón en automatización de soporte, en flujos de research y en pipelines RAG que rutean entre agents especialistas. Los números cambian, la forma es la misma.
La observación de la llamada del domingo es correcta. El bottleneck se movió de tipear a foco, y la mayoría de equipos todavía se miden contra el constraint viejo. Mirar cuántos agents puede supervisar tu equipo sin caída de calidad es ahora un indicador líder. Invertir en evals y disciplina de contexto sube el techo. Comprar más agents no.
Si estás escalando un equipo AI-heavy en 2026 y la calidad de tu output se está deshilachando, el movimiento no es más agents. Es menos agents por operador, evals más fuertes y sesiones de supervisión más cortas. Aburrido. Efectivo.
¿Cuál crees que es el techo para tu equipo? Dinos, queremos comparar notas.
¿Escalando un equipo de IA?
Reserva Consultoría Gratuita