Más barato por token. Más caro por respuesta.

Resumen

Claude Sonnet 5 salió más barato por token que Opus 4.8 y luego terminó el benchmark completo del Intelligence Index con un coste total por tarea más alto, unos 2,29 dólares frente a 1,99, porque a máximo esfuerzo usó alrededor de un 40 por ciento más de tokens de salida y unas tres veces más turnos agénticos, además de un tokenizador que cuenta el mismo texto como más tokens. No es una rareza de Sonnet, sino un patrón de los modelos de razonamiento: el precio de catálogo por token y el coste real por tarea completada pueden apuntar en direcciones opuestas. La cifra que aparece en tu factura es el coste total de terminar una tarea a tu nivel de calidad, incluyendo razonamiento, turnos de herramientas y reintentos. Mídela en tu propio conjunto de evaluación, elige el modelo según la tarea y no según la lista de precios, ajusta el dial de esfuerzo, y vuelve a calcular las cifras cada vez que un modelo se actualice. Los datos son una foto de 2026, así que verifícalos antes de comprometerte.

Claude Sonnet 5 se lanzó con un precio por token más bajo que Opus 4.8. Luego Artificial Analysis pasó toda la batería de pruebas del Intelligence Index, y Sonnet 5 terminó la ejecución con un coste total por tarea más alto que Opus, unos 2,29 dólares frente a 1,99, antes de aplicar precios promocionales (1).

Léelo otra vez. El modelo más barato generó la factura más grande.

Casi nadie mira la cifra del precio por millón de tokens y se hace la pregunta que de verdad decide la factura: cuántos tokens quema este modelo para llegar a la respuesta correcta.

Un modelo que razona dando vueltas no es barato. Es barato al empezar.

Los equipos que están optimizando el gasto ahora mismo vigilan el coste total por tarea completada, no el precio de etiqueta por token. Todos los demás están a punto de abrir una factura muy desconcertante.

La cifra que nadie pone en precio: tokens-hasta-la-respuesta

El precio por millón de tokens es la etiqueta del escaparate. Te dice la tarifa. No te dice nada sobre cuánto conduce el modelo hasta llegar al destino.

Detrás de una sola llamada a la API se esconden dos costes:

El precio unitario. Dólares por millón de tokens de entrada y de salida. Es lo que anuncia cada página de precios.
El número de tokens. Cuántos tokens consume realmente el modelo para terminar tu tarea, incluyendo razonamiento, reintentos y llamadas a herramientas que nunca ves.

Tu factura es el producto de los dos, no solo del primero. Artificial Analysis llama a la cifra honesta coste por tarea: el coste medio ponderado de completar una tarea del benchmark, que pone precio a los tokens que un modelo consume de verdad en lugar de a una tarifa estandarizada. Como ellos lo expresan, los modelos que producen respuestas más largas o más tokens de razonamiento tienen un coste por tarea más alto incluso con precios por token idénticos (2).

Recorta el precio unitario un 40 por ciento y deja que el consumo de tokens suba más que eso, y habrás hecho que el modelo parezca más barato mientras lo vuelves más caro.

Lo que de verdad pasó con Sonnet 5

El lanzamiento de Sonnet 5 es el caso de estudio limpio, porque Anthropic sí bajó el precio y el modelo aun así salió más caro de ejecutar.

Sobre el papel, Sonnet 5 es la ganga. Las tarifas estándar son 3 dólares por millón de tokens de entrada y 15 por millón de salida, con una tarifa introductoria de 2 y 10 vigente hasta el 31 de agosto de 2026. Opus 4.8 se sitúa en 5 y 25 (3). Por la etiqueta, Sonnet es aproximadamente un 40 por ciento más barato por token, y alrededor de un 60 por ciento más barato durante la ventana introductoria.

Luego lo ejecutas. Artificial Analysis descubrió que, con el máximo esfuerzo de razonamiento, Sonnet 5 usó cerca de un 40 por ciento más de tokens de salida por tarea del Intelligence Index que Sonnet 4.6, y aproximadamente el triple de turnos agénticos. En las evaluaciones de trabajo de conocimiento quemó alrededor de seis veces más turnos con el máximo esfuerzo que con el esfuerzo bajo. Las mejoras de rendimiento llegaron a través de cadenas de razonamiento más largas y más llamadas a herramientas, no a través de la eficiencia (1).

Súmale un segundo cambio, más silencioso: Sonnet 5 incorpora un tokenizador actualizado que asigna al mismo texto aproximadamente entre 1,0 y 1,35 veces más tokens que la generación anterior (4). Así que el mismo prompt se cuenta como más tokens antes de que el modelo haya razonado sobre nada.

Tarifa más baja, más tokens por respuesta, más tokens por unidad de texto. Los tres se combinan en el resultado que nadie puso en una diapositiva: en la batería completa, Sonnet 5 salió más caro por tarea completada que el modelo al que se suponía que iba a dejar por debajo en precio.

"Un precio unitario más barato en un modelo que razona dando vueltas no es un descuento. Es una factura aplazada. Los equipos que ganan leen todo el recibo, no el precio de la estantería."

Las cifras aquí son una instantánea de 2026 tomada de benchmarks públicos y de precios de proveedores. Las tarifas, los tokenizadores y el comportamiento de los modelos cambian rápido, y tu carga de trabajo no es la batería del benchmark. Vuelve a comprobar los números y, más importante aún, mide los tuyos antes de comprometerte.

Por qué los modelos de razonamiento rompen el precio de etiqueta

Esto no es un problema de Sonnet. Es un problema de los modelos de razonamiento, y es estructural.

Los modelos de razonamiento se ganan sus puntuaciones pensando antes de responder. Ese pensamiento son tokens: razonamiento interno, autoverificación, llamadas a herramientas y reintentos, la mayoría de los cuales pagas y nunca lees. La eficiencia en tokens de un modelo, el número de tokens que necesita para completar realmente una tarea, es un factor de coste más decisivo que su precio anunciado (5).

La diferencia entre modelos puede ser enorme. En un benchmark público de razonamiento, un modelo de razonamiento pequeño generó más de diez veces más tokens de completado que un modelo comparable sin razonamiento en los mismos problemas (6). La misma tarea, la misma respuesta esperada, un orden de magnitud más de tokens gastados para llegar hasta ahí.

Así que un modelo puede ser:

Más barato por token y más caro por tarea, porque piensa durante más tiempo.
Más caro por token y más barato por tarea, porque llega a la respuesta en una sola pasada en lugar de en cinco.

El precio de etiqueta y el coste real no son solo cifras distintas. Pueden apuntar en direcciones opuestas.

Coste por tarea, definido

Si te llevas una sola métrica de este artículo, llévate esta.

El coste por tarea completada es el gasto total, a través de cada token y cada turno, para dejar una tarea real hecha a tu nivel de calidad. No por token. No por petición. Por respuesta terminada y aceptable.

Captura lo que el precio de etiqueta esconde:

Tokens de razonamiento. El pensamiento que hace el modelo antes de responder.
Longitud de la salida. Un modelo verboso factura más incluso con la misma tarifa.
Turnos agénticos. Cada llamada a una herramienta y cada seguimiento es otra ida y vuelta con precio.
Reintentos. Las respuestas erróneas que tienes que volver a ejecutar no son gratis.
Deriva del tokenizador. El mismo texto puede contar como más tokens en un modelo más nuevo.

Un modelo que es barato al empezar y caro al terminar suspende esta medida. Ese es todo el sentido de usarla.

¿Quieres una lectura directa sobre qué modelo es de verdad el más barato para tu carga de trabajo?

Book Free Consultation

Cómo medir el coste por tarea completada

No necesitas un laboratorio de investigación. Necesitas tus propias tareas y una balanza. Este es el proceso que seguimos antes de recomendar un modelo a un cliente.

Define la tarea y el nivel de calidad. No "resume esto", sino "produce un resumen que pase esta rúbrica". Una tarea solo está completa cuando cumple el nivel, de lo contrario el reintento forma parte del coste.
Construye un pequeño conjunto de evaluación con trabajo real. De veinte a cincuenta tareas representativas de tu producto real superan a cualquier benchmark público, porque el benchmark no es tu carga de trabajo.
Ejecuta cada modelo candidato hasta completar la tarea. Las mismas tareas, la misma configuración que llevarías a producción. Deja que razone, llame a herramientas y reintente como lo hará en producción.
Cuenta cada token hasta terminar. Entrada, salida, razonamiento y cada turno agéntico. Usa el conteo de tokens del proveedor en lugar de una estimación, porque los tokenizadores difieren entre modelos.
Pon precio a todo el recorrido, incluidos los fallos. Multiplica los tokens por la tarifa real, suma el coste de los reintentos en las tareas que el modelo hizo mal a la primera. Ese total, dividido por las tareas completadas, es tu coste por tarea completada.

Haz esto una vez y el ranking a menudo se da la vuelta. El modelo con la tarifa por token que da miedo puede ser el más barato de terminar, y el modelo que parece barato puede ser el que sube la factura en silencio.

Qué significa esto para la elección de modelo

La lección no es "elige siempre el modelo caro". Es "deja de elegir por la etiqueta".

Algunas reglas con las que trabajamos:

Ajusta el modelo a la tarea, no a la lista de precios. Un modelo capaz que responde en una sola pasada puede ser más barato por tarea que uno más débil que da vueltas. Dirige el trabajo simple y de alto volumen a modelos baratos y el trabajo difícil y ambiguo a los fuertes. Escribimos el manual completo de enrutamiento en cómo reducir los costes de tokens de LLM en 2026.
Ajusta el dial del esfuerzo. En los modelos de razonamiento, el máximo esfuerzo es donde el coste por tarea se dispara. Usa esfuerzo alto donde la corrección lo merezca y esfuerzo más bajo para el trabajo rutinario, y luego mide la diferencia en tu propia evaluación.
Vigila el número de turnos agénticos, no solo los tokens. Cada llamada a herramienta y reintento extra es otra ida y vuelta facturada. Un modelo que termina en tres turnos puede ganarle a uno que termina en diez incluso con una tarifa más alta.
Vuelve a correr los números cuando un modelo se actualice. Una versión nueva puede cambiar el tokenizador y el comportamiento de razonamiento a la vez, como hizo Sonnet 5. El ranking de costes del trimestre pasado no es el de este trimestre.

El precio por token es la cifra de marketing. El coste por tarea completada es la cifra que aterriza en tu factura. Optimiza la que de verdad pagas.

Reflexiones finales

Sonnet 5 se lanzó más barato y salió más caro de ejecutar. Eso no es una casualidad, es lo que pasa cuando un modelo de razonamiento piensa durante más tiempo para puntuar más alto y tú lo pusiste en precio por la etiqueta. La solución no es un modelo distinto. Es una cifra distinta: el coste total por tarea completada, medido sobre tu propio trabajo, incluyendo razonamiento, turnos y reintentos.

Lee todo el recibo. Los equipos que lo hacen ya están pagando menos por mejores respuestas. Los equipos que no lo hacen están a punto de recibir una factura muy desconcertante.

References

Artificial Analysis (2026) ‘Claude Sonnet 5: strong agentic performance at a higher cost per task.’ Coste por tarea del Intelligence Index (~$2,29 frente a ~$1,99 de Opus 4.8, ~$1,15 de Sonnet 4.6); ~40% más de tokens de salida y ~3x turnos agénticos frente a Sonnet 4.6 con el máximo esfuerzo. Disponible en: https://artificialanalysis.ai/articles/claude-sonnet-5-agentic-cost (Consultado: 2 de julio de 2026).
Artificial Analysis (2026) ‘Language Model Benchmarking Methodology.’ Definición del Coste por Tarea como el coste medio ponderado de completar una tarea del Intelligence Index; las respuestas más largas y más tokens de razonamiento elevan el coste por tarea con precios por token idénticos. Disponible en: https://artificialanalysis.ai/methodology (Consultado: 2 de julio de 2026).
Anthropic (2026) ‘Models overview and pricing.’ Claude Sonnet 5 a $3/$15 por millón de tokens ($2/$10 introductorio hasta el 31 de agosto de 2026); Claude Opus 4.8 a $5/$25. Disponible en: https://platform.claude.com/docs/en/about-claude/models/overview (Consultado: 2 de julio de 2026).
Anthropic (2026) ‘Model migration guide.’ Claude Sonnet 5 usa un tokenizador actualizado que asigna al mismo texto aproximadamente entre 1,0 y 1,35 veces más tokens que la generación anterior; vuelve a establecer la línea base con el conteo de tokens. Disponible en: https://platform.claude.com/docs/en/about-claude/models/migration-guide (Consultado: 2 de julio de 2026).
CloudZero (2026) ‘LLM API pricing comparison.’ La eficiencia en tokens, el número de tokens que un modelo necesita para completar una tarea, es un factor de coste más crítico que el precio por token anunciado. Disponible en: https://www.cloudzero.com/blog/llm-api-pricing-comparison/ (Consultado: 2 de julio de 2026).
Wang, L. et al. (2025) ‘NPPC: an ever-scaling reasoning benchmark for LLMs.’ Un modelo de razonamiento pequeño generó aproximadamente un orden de magnitud más de tokens de completado que un modelo comparable sin razonamiento en las mismas tareas. Disponible en: https://arxiv.org/pdf/2504.11239 (Consultado: 2 de julio de 2026).