Duelo de LLM de Pesos Abiertos 2026: DeepSeek vs Qwen vs Kimi vs GLM vs Llama

Resumen

Las familias de modelos de pesos abiertos han cerrado en buena medida la brecha real de coding y reasoning con la frontier occidental, a una fracción del precio por token. DeepSeek ancla el suelo de precio y cubre el trabajo general amplio; Qwen tiene la familia más amplia y los tiers abiertos más permisivos (Apache 2.0); Kimi K2 se especializa en coding con agentes; GLM se bate de tú a tú en coding de horizonte largo; Llama trae el ecosistema occidental más profundo y el contexto más largo, pero una licencia propia que ha restringido el uso en la UE. El orden de decisión que importa: licencia y jurisdicción primero, luego emparejar la familia con el trabajo, dimensionar el tier, y probarlo en tu propio eval antes de lanzar. Los precios y benchmarks aquí son una foto orientativa de 2026 y estas familias cambian de versión rápido, así que vuelve a comprobarlo antes de comprometerte.

Servicio relacionado: Agentes y Productos de IA

Hace un año, elegir un LLM significaba elegir una API frontier occidental y discutir cuál. Esa discusión se acabó. Las familias de pesos abiertos, la mayoría salidas de China, han cerrado buena parte de la brecha real en coding y reasoning, a una fracción del precio por token, y varias ya se publican bajo licencias que de verdad puedes self-hostear en infraestructura de la UE. El panorama se movió, y la palanca de coste con él.

El pero es que "pesos abiertos" no es una sola decisión. DeepSeek, Qwen, Kimi, GLM y Llama difieren en licencia, ventana de contexto, fuerza en coding frente a reasoning, y en si puedes correrlos legalmente donde viven tus datos. Elige por un titular de benchmark y puedes acabar en un modelo que falla tu tarea, o en uno que no tienes permitido desplegar. Esta es la comparativa directa que hacemos antes de comprometer un modelo en producción, y el orden en que pesamos los trade-offs.

Perspectiva de ingeniería, no un pitch de proveedor. Los datos de precio y benchmark de abajo son orientativos, sacados de tendencias públicas de precios de 2026, no son quotes de un proveedor concreto. Estas familias cambian de versión rápido, así que vuelve a comprobarlo antes de comprometerte. Los puntos de referencia vienen del trabajo de Wavect en productos de IA.

¿Eligiendo un modelo para producción?

Reserva Consultoría Gratuita

¿Qué separa de verdad a las familias de pesos abiertos en 2026?

No son cinco versiones del mismo modelo. Cada familia hizo una apuesta distinta, y esa apuesta decide dónde encaja en tu stack.

DeepSeek. El disruptor de precio. Pesos con licencia MIT, buen reasoning y coding generales, y precios por token que anclaron el suelo del mercado. Los tiers flash son la opción creíble más barata para trabajo de alto volumen, los tiers pro alcanzan puntuaciones de coding cercanas a la frontier.
Qwen (Alibaba). La familia más amplia. Muchos tamaños, de diminuto a flagship, con la mayoría de los tiers abiertos pequeños bajo Apache 2.0, la licencia más permisiva de aquí. El tier Max hosteado es el más fuerte pero no es de pesos abiertos, así que no asumas que toda la familia se self-hostea.
Kimi K2 (Moonshot). El especialista en coding con agentes. Un gran modelo mixture-of-experts bajo licencia MIT modificada, afinado para uso de herramientas y bucles largos de coding más que para chat puro. Los tokens de salida son más caros aquí, lo que importa en agentes que generan mucho.
GLM (Zhipu / Z.ai). El flagship coding-first. Pesos abiertos con licencia MIT, una ventana de contexto larga, y posiciones en benchmarks de coding que se baten con la frontier occidental en tareas de software de horizonte largo, a una fracción del coste.
Llama (Meta). El veterano occidental de pesos abiertos. Ventanas de contexto enormes y un ecosistema de tooling profundo, pero una licencia comunitaria propia, no una open source de verdad, y los términos de licencia han restringido el uso en la UE. Esa restricción es la línea más importante para un equipo de la UE.

El patrón: las familias chinas compiten en precio y, cada vez más, en calidad de coding. Llama compite en ecosistema y longitud de contexto, pero arrastra lastre de licencia que golpea más fuerte a los equipos de la UE.

El nuevo Soofi S alemán pertenece a otra categoría: un modelo soberano alemán-inglés cuyo lanzamiento final pretende abrir mucho más que los pesos. Nuestro análisis de Soofi S para compradores revisa benchmarks, entrenamiento en Múnich, la licencia preview incompleta y los requisitos de un piloto europeo.

Kimi K3 exige ahora una decisión de procurement separada de la familia K2 anterior. Nuestra review de la API de Kimi K3 para empresas de la UE cubre precio activo, rendimiento independiente, datos en Singapur, huecos contractuales públicos, límites de migración y un piloto medible de dos semanas. Esta página conserva la intención comparativa general.

¿Cómo se comparan en precio, contexto y licencia?

Una tabla, normalizada por 1M de tokens para los tiers comparables. Trata cada número como una foto orientativa de tendencias públicas de 2026, no como un quote de proveedor, y vuelve a comprobarlo antes de comprometerte. Las versiones de modelo en estas familias cambian cada pocos meses, así que los nombres de tier importan más que cualquier cifra suelta.

Familia	Tier de ejemplo	Input $/1M	Output $/1M	Contexto	Licencia	Mejor para
DeepSeek	Clase flash	~$0,14 a $0,55	~$0,28 a $2,20	~128K a 1M	MIT (pesos abiertos)	Alto volumen, sensible al coste
Qwen	Clase Max (hosteada)	~$0,80 a $1,25	~$3,75 a $3,90	~256K a 1M	Apache 2.0 en tiers abiertos; Max solo hosteado	Familia amplia, tiers abiertos permisivos
Kimi K2	Clase K2	~$0,60 a $0,95	~$2,50 a $4,00	~256K	MIT modificada (pesos abiertos)	Coding con agentes, uso de herramientas
GLM	Clase flagship	~$1,00 a $1,40	~$3,20 a $4,40	hasta ~1M	MIT (pesos abiertos)	Agentes de coding de horizonte largo
Llama	Clase Maverick	varía por host	varía por host	hasta ~1M (Scout hasta ~10M)	Licencia comunitaria propia; uso en la UE restringido	Ecosistema occidental, contexto muy largo

Saltan dos cosas. Primero, las familias chinas están grosso modo de 10 a 30 veces por debajo de los tiers frontier occidentales más altos por token, por eso recolocan las cuentas de coste para productos de alto volumen. Segundo, la licencia no es una nota al pie. MIT y Apache 2.0 te dejan self-hostear y enviar dentro de un producto propietario sin conversación de royalties. Una licencia comunitaria propia con excepciones de uso no, y para un equipo de la UE la restricción de Llama en la UE puede quitarla de la mesa antes de que el precio entre siquiera en la discusión.

¿Coding o reasoning: qué familia gana qué trabajo?

No hay un único ganador, porque coding y reasoning premian cosas distintas. La lectura honesta de los benchmarks de 2026, con la advertencia de siempre de que los benchmarks van meses por detrás de la realidad:

Agentes de coding de horizonte largo. GLM y Kimi K2 son los dos construidos para esto. El flagship de GLM se bate con la frontier occidental en benchmarks largos de ingeniería de software, y Kimi está afinado en concreto para uso de herramientas y bucles de coding de varios pasos. Si tu producto es un agente que edita código a lo largo de muchos pasos, empieza por aquí.
Reasoning general y amplitud. Los tiers pro de DeepSeek y el flagship de Qwen cubren bien el rango más amplio de tareas. DeepSeek en particular logra puntuaciones de reasoning cercanas a la frontier a un precio que lo convierte en el default para trabajo general sensible al coste.
Precisión pura de coding en tareas aisladas. Las mejores puntuaciones de pesos abiertos en suites tipo SWE-bench están ya a un dígito porcentual de los modelos frontier occidentales líderes. La brecha que importaba hace dos años se ha cerrado en buena medida para el trabajo de ingeniería cotidiano.
El reasoning más duro aún se inclina al oeste. En el reasoning más duro y los bucles de agente más profundos, los tiers altos de Claude y GPT siguen liderando. Cuando una respuesta equivocada sale cara, el modelo frontier puede ganar aún en coste total una vez cuentas el tiempo de desarrollo gastado en arreglar salidas malas. Tratamos ese trade-off en cómo reducir los costes de tokens LLM en 2026.

"El titular del benchmark te dice qué modelo probar primero. Tu propio eval te dice cuál lanzar. No son el mismo modelo lo bastante a menudo como para que tengas que correr el eval."

¿Puedes self-hostearlos en la UE sin un dolor de cabeza de compliance?

Aquí es donde las familias se separan con más fuerza para un equipo europeo, y donde la licencia importa más que los benchmarks.

DeepSeek, GLM, Kimi. Pesos MIT y MIT modificada significan que puedes descargarlos y correr la inferencia en infraestructura de la UE. Los datos nunca salen de tu jurisdicción, y mantienes la ventaja de precio. El pero no es la licencia, es el peso operativo: capacidad de GPU, un stack de inferencia, y la disciplina de evals para saber que el modelo sigue rindiendo.
Tiers abiertos de Qwen. Apache 2.0 es la opción más permisiva de la tabla y se self-hostea limpio. El tier flagship Max, sin embargo, es solo hosteado y corre fuera de la UE, así que un plan de self-host que asume "Qwen" sin nombrar el tier puede enrutar datos fuera en silencio.
Llama. La licencia comunitaria propia ha restringido el uso en la UE, lo cual es una pregunta legal, no técnica. Resuelve la postura de licencia antes de construir sobre ella, por muy bien que se vea la ventana de contexto.

El punto de fondo: self-hostear un modelo chino de pesos abiertos en infraestructura de la UE es la jugada que te da el precio y la historia de residencia de datos a la vez. Correr el mismo modelo a través de una API hosteada fuera de la UE te da el precio pero te cuelga primero una pregunta de compliance. Qué camino encaja depende de tu clasificación de datos y de tu disposición a correr inferencia en casa. Si tu equipo monta esa capacidad interna de IA por primera vez, ese es justo el terreno que cubre nuestro trabajo de enablement de IA. En cualquier caso, dónde corre la inferencia y dónde aterrizan los datos es una decisión a tomar a propósito, no por defecto.

Entonces, ¿cuál deberías elegir de verdad?

Elige por la restricción más difícil de cambiar, no por el titular. El orden en que lo recorremos:

Licencia y jurisdicción primero. Si eres un equipo de la UE que necesita self-hostear, la restricción de Llama en la UE probablemente lo descarta, y eliges entre DeepSeek, GLM, Kimi y los tiers abiertos de Qwen. Resuelve esto antes de hacer ningún benchmark.
Empareja la familia con el trabajo. Agente de coding de horizonte largo: GLM o Kimi K2. Workload general sensible al coste a volumen: clase flash de DeepSeek. Necesidades amplias con self-host permisivo: tiers abiertos de Qwen. Contexto muy largo dentro del ecosistema occidental con la licencia resuelta: Llama.
Dimensiona bien el tier. La mayoría del tráfico no necesita el flagship. Un default barato con escalado a un tier más fuerte, el patrón de routing, suele ganar a correr el modelo más grande en todo.
Corre tu propio eval antes de cambiar. Un benchmark es una hipótesis de partida, no una decisión de despliegue. Construye un pequeño harness de evals sobre tus tareas reales y prueba que el modelo mantiene la calidad antes de que toque producción. Un modelo más barato que falla 1 de cada 10 de tus tareas no es más barato.
Vuelve a comprobar cada pocos meses. Estas familias publican versiones y precios nuevos a una cadencia de meses. La elección correcta de hoy es una foto, no una respuesta permanente.

Corremos esta misma secuencia en trabajo de IA en producción, incluidos engagements como Twinsoft AI, donde la disciplina que hace seguro un cambio de modelo es el harness de evals, no la tabla de benchmarks.

¿Y el harness de evals que todo el mundo se salta?

Cada recomendación de arriba descansa en algo que los equipos se saltan por costumbre: un harness de evals construido sobre tus propias tareas. Los benchmarks públicos están contaminados, manipulados y meses por detrás, y miden tareas que no son las tuyas. El modelo que encabeza un leaderboard puede seguir siendo la elección equivocada para tus datos, tus prompts y tus casos límite.

El harness no tiene que ser elaborado. Unas pocas decenas de tareas representativas con una condición de aprobado clara, corridas contra cada modelo candidato, te dicen más que cualquier leaderboard. Es también la única forma de cambiar de modelo con seguridad más adelante, porque te dice en minutos si un modelo más barato o más nuevo mantuvo el listón de calidad. Sin él, cada cambio de modelo es una apuesta, y una apuesta que baja la calidad en silencio es el error más caro de todo este panorama.

Reflexiones finales

El campo de pesos abiertos en 2026 no va de coronar a un ganador. DeepSeek ancla el suelo de precio y cubre el trabajo general amplio. Qwen te da la familia más amplia y la licencia abierta más permisiva. Kimi K2 se especializa en coding con agentes. GLM se bate de tú a tú con la frontier occidental en coding de horizonte largo a una fracción del coste. Llama trae el ecosistema occidental más profundo y las ventanas de contexto más largas, con una licencia que un equipo de la UE tiene que aclarar primero.

Lo que importa es el orden de decisión: licencia y jurisdicción antes que nada, luego emparejar la familia con el trabajo, dimensionar bien el tier, y probarlo en tu propio eval antes de lanzar. Los precios y benchmarks de aquí son una foto orientativa, y estas familias cambian de versión rápido, así que trata cualquier cifra suelta como un punto de partida y vuelve a comprobarlo antes de comprometerte. La única constante es el harness de evals. Es la diferencia entre elegir un modelo y apostar por uno.

¿Quieres una segunda opinión sobre tu elección de modelo?