Open-Weight-LLM-Showdown 2026: DeepSeek vs Qwen vs Kimi vs GLM vs Llama

TL;DR

Open-Weight-Modellfamilien haben den realen Coding- und Reasoning-Abstand zur westlichen Frontier weitgehend geschlossen, zu einem Bruchteil des Preises pro Token. DeepSeek verankert den Preisboden und deckt breite allgemeine Arbeit ab, Qwen hat die breiteste Familie und die permissivsten offenen Tiers (Apache 2.0), Kimi K2 spezialisiert sich auf agentisches Coding, GLM misst sich direkt bei langlebigem Coding, und Llama bringt das tiefste westliche Ökosystem und den längsten Kontext, aber eine eigene Lizenz, die die EU-Nutzung eingeschränkt hat. Die Entscheidungsreihenfolge zählt: Lizenz und Jurisdiktion zuerst, dann Familie an den Job anpassen, Tier dimensionieren und auf dem eigenen Eval beweisen, bevor du auslieferst. Die Preise und Benchmarks hier sind eine Richtwert-Momentaufnahme 2026, und diese Familien wechseln schnell die Version, also prüf vor dem Commit erneut.

Passende Leistung: KI-Agenten & Produkte

Vor einem Jahr bedeutete die Wahl eines LLM: eine westliche Frontier-API nehmen und darüber streiten, welche. Der Streit ist vorbei. Open-Weight-Familien, die meisten davon aus China, haben den realen Abstand bei Coding und Reasoning weitgehend geschlossen, zu einem Bruchteil des Preises pro Token, und einige liefern inzwischen unter Lizenzen, die du tatsächlich auf EU-Infrastruktur self-hosten darfst. Die Landschaft hat sich verschoben, und der Kostenhebel mit ihr.

Der Haken: "Open Weight" ist nicht eine Entscheidung. DeepSeek, Qwen, Kimi, GLM und Llama unterscheiden sich bei Lizenz, Kontextfenster, Coding- gegen Reasoning-Stärke und ob du sie dort, wo deine Daten liegen, überhaupt legal betreiben darfst. Wählst du nach einer Benchmark-Schlagzeile, landest du womöglich auf einem Modell, das deine Aufgabe verfehlt, oder auf einem, das du gar nicht deployen darfst. Das ist der Direktvergleich, den wir fahren, bevor wir ein Modell produktiv setzen, und die Reihenfolge, in der wir die Trade-offs abwägen.

Engineering-Perspektive, kein Vendor-Pitch. Die Preis- und Benchmark-Punkte unten sind Richtwerte aus öffentlichen 2026er-Preistrends, keine herstellerspezifischen Quotes. Diese Familien wechseln schnell die Version, also prüf vor dem Commit erneut. Die Referenzpunkte stammen aus Wavects Arbeit an KI-Produkten.

Wählst du ein Modell für Produktion?

Kostenloses Erstgespräch buchen

Was unterscheidet die Open-Weight-Familien 2026 wirklich?

Es sind nicht fünf Versionen desselben Modells. Jede Familie hat eine andere Wette platziert, und diese Wette entscheidet, wo sie in deinen Stack passt.

DeepSeek. Der Preis-Disruptor. MIT-lizenzierte Weights, starkes allgemeines Reasoning und Coding, und Preise pro Token, die das untere Ende des Marktes verankert haben. Die Flash-Tiers sind die günstigste glaubwürdige Option für hochvolumige Arbeit, die Pro-Tiers erreichen Coding-Scores nahe der Frontier.
Qwen (Alibaba). Die breiteste Familie. Viele Größen von winzig bis Flagship, die meisten kleineren offenen Tiers unter Apache 2.0, der permissivsten Lizenz hier. Der gehostete Max-Tier ist der stärkste, aber nicht Open-Weight, geh also nicht davon aus, dass sich die ganze Familie self-hosten lässt.
Kimi K2 (Moonshot). Der Spezialist fürs agentische Coding. Ein großes Mixture-of-Experts-Modell unter modifizierter MIT-Lizenz, getunt für Tool-Use und lange Coding-Loops statt für reinen Chat. Output-Tokens sind hier teurer, was für Agents zählt, die viel generieren.
GLM (Zhipu / Z.ai). Das Coding-First-Flagship. MIT-lizenzierte Open Weights, ein langes Kontextfenster und Coding-Benchmark-Stände, die sich bei langen Software-Aufgaben mit der westlichen Frontier messen, zu einem Bruchteil der Kosten.
Llama (Meta). Der westliche Open-Weight-Platzhirsch. Riesige Kontextfenster und ein tiefes Tooling-Ökosystem, aber eine eigene Community-Lizenz, keine echte Open-Source-Lizenz, und die Lizenzbedingungen haben die EU-Nutzung eingeschränkt. Diese Einschränkung ist der wichtigste Posten für ein EU-Team.

Das Muster: Die chinesischen Familien konkurrieren über den Preis und zunehmend über die Coding-Qualität. Llama konkurriert über Ökosystem und Kontextlänge, schleppt aber Lizenz-Ballast mit, der EU-Teams am härtesten trifft.

Deutschlands neues Soofi S gehört in eine andere Kategorie: ein souveränes deutsch-englisches Modell, dessen geplanter Release mehr als Gewichte öffnen soll. Unser Soofi-S-Käufercheck prüft Benchmarks, Training in München, die unvollständige Preview-Lizenz und die Bedingungen für einen EU-Piloten.

Kimi K3 braucht inzwischen eine eigene Procurement-Entscheidung, getrennt von der älteren K2-Familie. Unser Kimi-K3-API-Review für EU-Unternehmen prüft Live-Preise, unabhängige Performance, Datenstandort Singapur, öffentliche Vertragslücken, Migrationsgrenzen und einen gemessenen Zwei-Wochen-Pilot. Diese Seite bleibt für den breiten Familienvergleich zuständig.

Wie vergleichen sie sich bei Preis, Kontext und Lizenz?

Eine Tabelle, normiert pro 1M Tokens für die vergleichbaren Tiers. Behandle jede Zahl als Richtwert-Momentaufnahme öffentlicher 2026er-Trends, nicht als Hersteller-Quote, und prüf vor dem Commit erneut. Die Modellversionen in diesen Familien ändern sich alle paar Monate, die Tier-Namen zählen also mehr als jede Einzelzahl.

Familie	Beispiel-Tier	Input $/1M	Output $/1M	Kontext	Lizenz	Am besten für
DeepSeek	Flash-Klasse	~$0,14 bis $0,55	~$0,28 bis $2,20	~128K bis 1M	MIT (Open Weights)	Hochvolumig, kostensensibel
Qwen	Max-Klasse (gehostet)	~$0,80 bis $1,25	~$3,75 bis $3,90	~256K bis 1M	Apache 2.0 auf offenen Tiers; Max nur gehostet	Breite Familie, permissive offene Tiers
Kimi K2	K2-Klasse	~$0,60 bis $0,95	~$2,50 bis $4,00	~256K	Modifiziertes MIT (Open Weights)	Agentisches Coding, Tool-Use
GLM	Flagship-Klasse	~$1,00 bis $1,40	~$3,20 bis $4,40	bis ~1M	MIT (Open Weights)	Langlebige Coding-Agents
Llama	Maverick-Klasse	je nach Host	je nach Host	bis ~1M (Scout bis ~10M)	Eigene Community-Lizenz; EU-Nutzung eingeschränkt	Westliches Ökosystem, sehr langer Kontext

Zwei Dinge stechen heraus. Erstens liegen die chinesischen Familien pro Token grob 10 bis 30 Mal unter den obersten westlichen Frontier-Tiers, weshalb sie die Kostenrechnung für hochvolumige Produkte neu aufstellen. Zweitens ist die Lizenz keine Fußnote. MIT und Apache 2.0 erlauben dir Self-Hosting und das Ausliefern in einem proprietären Produkt ohne Lizenzgebühr-Gespräch. Eine eigene Community-Lizenz mit Nutzungs-Ausnahmen tut das nicht, und für ein EU-Team kann die Llama-EU-Einschränkung sie vom Tisch nehmen, bevor der Preis überhaupt ins Spiel kommt.

Coding oder Reasoning: Welche Familie gewinnt welchen Job?

Es gibt keinen einzelnen Sieger, weil Coding und Reasoning Unterschiedliches belohnen. Die ehrliche Lesart der 2026er-Benchmarks, mit dem üblichen Vorbehalt, dass Benchmarks der Realität um Monate hinterherhinken:

Langlebige Coding-Agents. GLM und Kimi K2 sind die beiden, die dafür gebaut sind. GLMs Flagship misst sich bei langen Software-Engineering-Benchmarks mit der westlichen Frontier, und Kimi ist gezielt für Tool-Use und mehrstufige Coding-Loops getunt. Ist dein Produkt ein Agent, der über viele Schritte Code editiert, fang hier an.
Allgemeines Reasoning und Breite. DeepSeeks Pro-Tiers und Qwens Flagship decken die breiteste Aufgabenspanne gut ab. DeepSeek landet insbesondere Reasoning-Scores nahe der Frontier zu einem Preis, der es zum Default für kostensensible allgemeine Arbeit macht.
Reine Coding-Genauigkeit bei isolierten Aufgaben. Die obersten Open-Weight-Scores auf SWE-bench-artigen Suiten liegen jetzt im einstelligen Prozentbereich hinter den führenden westlichen Frontier-Modellen. Die Lücke, die vor zwei Jahren zählte, ist für alltägliche Engineering-Arbeit weitgehend geschlossen.
Das härteste Reasoning kippt noch nach Westen. Beim allerhärtesten Reasoning und den tiefsten Agent-Loops führen die obersten Claude- und GPT-Tiers weiterhin. Wenn eine falsche Antwort teuer ist, kann das Frontier-Modell auf Gesamtkosten noch gewinnen, sobald du die Entwicklerzeit fürs Korrigieren schlechter Outputs mitrechnest. Diesen Trade-off haben wir in LLM-Token-Kosten 2026 senken behandelt.

"Die Benchmark-Schlagzeile sagt dir, welches Modell du zuerst testen sollst. Dein eigener Eval sagt dir, welches du ausliefern sollst. Das sind oft genug nicht dasselbe Modell, dass du den Eval fahren musst."

Lassen sie sich in der EU ohne Compliance-Kopfschmerz self-hosten?

Hier trennen sich die Familien für ein europäisches Team am härtesten, und hier zählt die Lizenz mehr als Benchmarks.

DeepSeek, GLM, Kimi. MIT- und modifizierte-MIT-Weights heißt, du kannst sie herunterladen und die Inferenz auf EU-Infrastruktur laufen lassen. Die Daten verlassen nie deine Jurisdiktion, und du behältst den Preisvorteil. Der Haken ist nicht die Lizenz, sondern das operative Gewicht: GPU-Kapazität, ein Inferenz-Stack und die Eval-Disziplin, um zu wissen, dass das Modell weiterhin liefert.
Qwen offene Tiers. Apache 2.0 ist die permissivste Option in der Tabelle und lässt sich sauber self-hosten. Der Flagship-Max-Tier ist allerdings nur gehostet und läuft außerhalb der EU, ein Self-Host-Plan, der "Qwen" ohne Tier-Nennung annimmt, kann also still Daten ins Ausland routen.
Llama. Die eigene Community-Lizenz hat die EU-Nutzung eingeschränkt, das ist eine juristische, keine technische Frage. Kläre die Lizenz-Lage, bevor du darauf baust, egal wie gut das Kontextfenster aussieht.

Der tiefere Punkt: Ein chinesisches Open-Weight-Modell auf EU-Infrastruktur self-zu-hosten ist der Zug, der dir Preis und Datenresidenz-Story zugleich gibt. Dasselbe Modell über eine Nicht-EU-API zu nutzen gibt dir den Preis, hängt dir aber zuerst eine Compliance-Frage an. Welcher Pfad passt, hängt von deiner Datenklassifizierung und deiner Bereitschaft ab, Inferenz im Haus zu fahren. Baut dein Team diese interne KI-Kompetenz zum ersten Mal auf, ist genau das der Boden, den unsere KI-Enablement-Arbeit abdeckt. So oder so: Wo die Inferenz läuft und wo die Daten landen, ist eine bewusste Entscheidung, keine Default-Sache.

Welches solltest du also wirklich nehmen?

Wähl nach der Einschränkung, die am schwersten zu ändern ist, nicht nach der Schlagzeile. Die Reihenfolge, in der wir das abarbeiten:

Lizenz und Jurisdiktion zuerst. Bist du ein EU-Team, das self-hosten muss, fällt Llama wegen der EU-Einschränkung wahrscheinlich raus, und du wählst zwischen DeepSeek, GLM, Kimi und den offenen Qwen-Tiers. Kläre das, bevor du irgendetwas benchmarkst.
Familie an den Job anpassen. Langlebiger Coding-Agent: GLM oder Kimi K2. Kostensensibler allgemeiner Workload bei Volumen: DeepSeek Flash-Klasse. Breite Bedürfnisse mit permissivem Self-Host: offene Qwen-Tiers. Sehr langer Kontext im westlichen Ökosystem mit geklärter Lizenz: Llama.
Tier richtig dimensionieren. Der meiste Traffic braucht das Flagship nicht. Ein günstiger Default mit Eskalation zu einem stärkeren Tier, das Routing-Muster, schlägt meist, auf allem das größte Modell zu fahren.
Eigenen Eval fahren, bevor du wechselst. Ein Benchmark ist eine Start-Hypothese, keine Deployment-Entscheidung. Bau einen kleinen Eval-Harness auf deinen echten Aufgaben und beweise, dass das Modell die Qualität hält, bevor es Produktion berührt. Ein günstigeres Modell, das 1 von 10 deiner Aufgaben verfehlt, ist nicht günstiger.
Alle paar Monate erneut prüfen. Diese Familien liefern neue Versionen und neue Preise im Monatstakt. Die richtige Wahl heute ist eine Momentaufnahme, keine dauerhafte Antwort.

Wir fahren genau diese Sequenz in produktiver KI-Arbeit, darunter Engagements wie Twinsoft AI, wo die Disziplin, die einen Modellwechsel sicher macht, der Eval-Harness ist, nicht die Benchmark-Tabelle.

Und der Eval-Harness, den alle überspringen?

Jede Empfehlung oben ruht auf einer Sache, die Teams routinemäßig überspringen: einem Eval-Harness auf deinen eigenen Aufgaben. Öffentliche Benchmarks sind kontaminiert, getrickst und Monate hinterher, und sie messen Aufgaben, die nicht deine sind. Das Modell, das ein Leaderboard anführt, kann für deine Daten, deine Prompts und deine Edge-Cases trotzdem die falsche Wahl sein.

Der Harness muss nicht aufwendig sein. Ein paar Dutzend repräsentative Aufgaben mit klarer Pass-Bedingung, gegen jedes Kandidaten-Modell gefahren, sagt dir mehr als jedes Leaderboard. Es ist auch der einzige Weg, später sicher zu wechseln, weil es dir in Minuten sagt, ob ein günstigeres oder neueres Modell die Qualitätslatte gehalten hat. Ohne ihn ist jeder Modellwechsel ein Ratespiel, und ein Ratespiel, das still die Qualität senkt, ist der teuerste Fehler in dieser ganzen Landschaft.

Fazit

Das Open-Weight-Feld 2026 dreht sich nicht darum, einen Sieger zu krönen. DeepSeek verankert den Preisboden und deckt breite allgemeine Arbeit ab. Qwen gibt dir die breiteste Familie und die permissivste offene Lizenz. Kimi K2 spezialisiert sich auf agentisches Coding. GLM misst sich bei langlebigem Coding direkt mit der westlichen Frontier zu einem Bruchteil der Kosten. Llama bringt das tiefste westliche Ökosystem und die längsten Kontextfenster, mit einer Lizenz, die ein EU-Team zuerst klären muss.

Was zählt, ist die Entscheidungsreihenfolge: Lizenz und Jurisdiktion vor allem, dann Familie an den Job anpassen, Tier richtig dimensionieren und es auf deinem eigenen Eval beweisen, bevor du ausliefest. Die Preise und Benchmarks hier sind eine Richtwert-Momentaufnahme, und diese Familien wechseln schnell die Version, behandle also jede Einzelzahl als Startpunkt und prüf vor dem Commit erneut. Die eine Konstante ist der Eval-Harness. Er ist der Unterschied zwischen ein Modell wählen und auf eines wetten.

Zweite Meinung zu deiner Modellwahl?