Si arquitecturaste un producto de IA en 2024, gastaste la mitad de tu tiempo de ingeniería escondiendo el precio de los tokens. Retrieval agresivo, summarisation frágil, model routing en cada llamada. En 2026, el pricing de modelos frontier-class por millón de tokens es aproximadamente una quinta parte de lo que era hace dos años. Eso cambia la matemática en casi toda decisión de diseño que hicimos. Este post es lo que realmente recableamos en arquitecturas de clientes ahora, con una tabla de costes lado a lado y una lista de movimientos concretos.
Esto está escrito desde el historial de engagements de Wavect en builds de productos de IA. Los números en la tabla son ilustrativos basados en tendencias públicas de pricing, no compromisos específicos de vendor.
¿Reconstruyendo tu stack de IA?
Reserva Consultoría GratuitaPara modelos frontier-class en los principales providers, el precio de lista por token en 2026 es aproximadamente 70 a 85% menor que el de la clase equivalente en 2024, dependiendo del tier. Los modelos mid-tier bajaron más. El pricing de cached input bajó aún más fuerte. Lo que no bajó: latencia en alta concurrencia, egress, hosting de bases de datos vectoriales y el coste humano de construir evals. Así que tu factura bajó, tu apalancamiento arquitectónico subió, pero tu criterio de ingeniería importa más, no menos.
Números ilustrativos aproximados, normalizados por 1M tokens, clases frontier y mid-tier. Trátalos como direccionales, no como una cotización.
| Clase de modelo | Input 2024 | Input 2026 | Output 2024 | Output 2026 |
|---|---|---|---|---|
| Frontier reasoning | $15 | $3 | $75 | $15 |
| Frontier general | $3 | $0.60 | $15 | $3 |
| Mid-tier general | $0.50 | $0.10 | $1.50 | $0.30 |
| Small / fast | $0.15 | $0.03 | $0.60 | $0.10 |
| Cached input | n/a | $0.30 | n/a | n/a |
La línea interesante es "frontier reasoning". Un agent loop profundo que costaba $0.40 por tarea en 2024 cuesta más cerca de $0.08 hoy. Eso cambia qué productos son viables.
Dejamos de sobre-ingenierizar retrieval para corpus pequeños. Dejamos de rutear cada llamada por un "cheap default" cuando la brecha de calidad importaba. Dejamos de escribir summarisers custom para encajar en context windows diminutos.
Ocho movimientos concretos que aplicamos en el trabajo con clientes en 2026.

"Tu arquitectura de IA debería seguir la curva de precios, no congelarse en el día en que empezaste a construir."
Sí, pero el umbral se movió. RAG sigue siendo la respuesta correcta cuando el corpus es grande (multimillones de tokens), cuando la freshness importa (conocimiento que cambia a diario), cuando el control de acceso necesita enforcement a nivel de fila, o cuando necesitas un trail claro de citaciones. Para todo lo demás, long context suele ser más simple. Reconstruimos un producto de conocimiento en 2026 borrando la mayor parte de la capa de retrieval y moviéndonos a prompts estructurados de long-context. Los eval scores mejoraron y la carga de mantenimiento bajó. Engagements como PromptID y Quivr moldearon cómo trazamos esa línea.
En 2024 la factura estaba dominada por inferencia. En 2026 se divide más uniformemente entre inferencia, hosted vector o search infrastructure, observability y runs de eval, y una línea no-trivial para human review en productos de agent. Un producto de IA mid-size típico en el que trabajamos tiene la inferencia entre el 30 y 45% del coste total de run, abajo del 70 al 80% de hace dos años. La implicación: optimizar inferencia aún más tiene rendimientos decrecientes. Optimiza el eval loop y la superficie de tools en su lugar.
Los modelos open-weight cerraron mucho de la brecha de calidad en 2026. Para workloads de alto volumen, sensibles a latencia o a data-residency, los open weights self-hosted son ahora genuinamente competitivos. La pega: asumes la carga de ops, la carga de eval y la cadencia de upgrade. Por defecto usamos APIs hosted para productos early y revisamos self-hosting una vez que el volumen lo justifique, normalmente al norte de 50 millones de tokens por día.
Seguimos usando precio fijo ágil fixed price para entregables scoped. Lo que cambió es el forecast del coste de run. Modelamos volumen esperado de tokens, ratio de cache hit, tasa de escalation y share de batch. Un feature moderno de IA para un cliente mid-market típicamente corre al 30 a 60% del coste de inferencia que habríamos cotizado en 2024 para el mismo nivel de calidad. El esfuerzo de ingeniería se movió de esconder coste a ingeniería de calidad.
Los tokens se volvieron baratos. Eso no es un cambio táctico, es uno estructural. Los equipos que ganan en 2026 son los que dejan de optimizar para la factura de 2024 y empiezan a optimizar para profundidad de producto: agent loops más profundos, context más largo, superficies de tools más ricas y una disciplina seria de eval. Los equipos que pierden son los que todavía tratan al modelo frontier como un bien de lujo y rutean todo a través de un mid-tier solo para sentirse seguros. Si construiste tu arquitectura de IA antes de mediados de 2025, vale la pena una revisión estructural. La mayoría de los workarounds inteligentes que escribiste son ahora pasivos. La buena noticia: limpiarlos suele encoger el codebase, baja la factura y sube los eval scores al mismo tiempo. Esa es la rara victoria triple en software, y está sobre la mesa los próximos 12 meses mientras el resto del mercado todavía discute al respecto.
¿Reconstruyendo tu stack de IA?
Reserva Consultoría Gratuita