Kevin Riedl

9 min 阅读 · 25 Jun 2026

2026 开源权重 LLM 对决:DeepSeek vs Qwen vs Kimi vs GLM vs Llama

一年前,选一个 LLM 就是选一家西方 frontier API,然后争论该选哪家。那场争论已经结束。开源权重的几大家族,大多出自中国,已经把真实世界里编码和推理的差距基本追平,价格只是单位 token 的一个零头,而且其中好几家现在的发布许可,你真的可以在欧盟基础设施上自托管。格局变了,成本杠杆也跟着变了。

难点在于,“开源权重”不是一个单一决定。DeepSeek、Qwen、Kimi、GLM 和 Llama 在许可证、上下文窗口、编码与推理的强弱、以及你能否在数据所在地合法运行它们这几点上各不相同。凭一个基准标题来选,你可能落到一个做不了你任务的模型上,或者一个你根本不被允许部署的模型上。这就是我们在把一个模型投入生产之前所做的正面对比,以及我们权衡取舍的顺序。

这是工程视角,不是供应商推销。下面的价格与基准点是方向性的,取自 2026 年的公开价格趋势,并非某家供应商的报价。这几个家族换版本很快,所以投入前请重新核对。参考点来自 Wavect 在 AI 产品上的工作。

在为生产挑模型?

 预约免费咨询

2026 年开源权重家族之间到底差在哪?

它们不是同一个模型的五个版本。每个家族下了不同的赌注,而这个赌注决定了它在你技术栈里的位置。

  • DeepSeek。价格颠覆者。MIT 许可的权重,强大的通用推理和编码,以及锚定市场底部的单位 token 价格。flash 档是高用量工作里最便宜的可信选项,pro 档能拿到接近 frontier 的编码分数。
  • Qwen(阿里巴巴)。最宽的家族。从极小到旗舰的众多尺寸,多数较小的开放档位采用 Apache 2.0,这是这里最宽松的许可证。托管的 Max 档最强,但不是开源权重,所以别以为整个家族都能自托管。
  • Kimi K2(Moonshot)。agent 编码专家。一个大型 mixture-of-experts 模型,采用修改版 MIT 许可,为工具调用和长编码循环而调,而非纯聊天。这里的输出 token 更贵,这对生成量大的 agent 很关键。
  • GLM(智谱 / Z.ai)。编码优先的旗舰。MIT 许可的开源权重,一个长上下文窗口,以及在长程软件任务上能与西方 frontier 互有胜负的编码基准成绩,成本只是其一个零头。
  • Llama(Meta)。西方开源权重的老牌。巨大的上下文窗口和深厚的工具生态,但用的是自家社区许可,不是真正的开源许可,而且许可条款限制了在欧盟的使用。对一个欧盟团队来说,这条限制是最重要的一项。

规律是:中国的家族在价格上竞争,并且越来越多地在编码质量上竞争。Llama 在生态和上下文长度上竞争,却背着许可包袱,而这个包袱对欧盟团队打击最重。

它们在价格、上下文和许可上怎么比?

一张表,按可比档位每 1M token 归一化。请把每个数字当作 2026 年公开趋势的方向性快照,而非供应商报价,并在投入前重新核对。这些家族的模型版本每隔几个月就变,所以档位名称比任何单个数字都更重要。

家族示例档位输入 $/1M输出 $/1M上下文许可证最适合
DeepSeekflash 级~$0.14 到 $0.55~$0.28 到 $2.20~128K 到 1MMIT(开源权重)高用量、对成本敏感
QwenMax 级(托管)~$0.80 到 $1.25~$3.75 到 $3.90~256K 到 1M开放档位 Apache 2.0;Max 仅托管家族宽,开放档位宽松
Kimi K2K2 级~$0.60 到 $0.95~$2.50 到 $4.00~256K修改版 MIT(开源权重)agent 编码、工具调用
GLM旗舰级~$1.00 到 $1.40~$3.20 到 $4.40最高 ~1MMIT(开源权重)长程编码 agent
LlamaMaverick 级随托管方而定随托管方而定最高 ~1M(Scout 达 ~10M)自家社区许可;欧盟使用受限西方生态、超长上下文

有两点跳出来。第一,中国的家族在单位 token 上大致比最高的西方 frontier 档位低 10 到 30 倍,这正是它们为高用量产品重排成本账的原因。第二,许可证不是脚注。MIT 和 Apache 2.0 让你能自托管、能放进专有产品里交付,而不必谈版税。带使用例外的自家社区许可做不到,而对一个欧盟团队,Llama 的欧盟限制可能在价格都还没进入讨论之前就把它从桌上拿掉。

编码还是推理:哪个家族赢哪份活?

没有单一赢家,因为编码和推理奖励的是不同的东西。对 2026 年基准的诚实解读,照例提醒一句,基准落后现实好几个月:

  • 长程编码 agent。GLM 和 Kimi K2 是为此而造的两家。GLM 的旗舰在长软件工程基准上与西方 frontier 互有胜负,Kimi 则专门为工具调用和多步编码循环而调。如果你的产品是一个跨许多步骤改代码的 agent,从这里开始。
  • 通用推理和广度。DeepSeek 的 pro 档和 Qwen 的旗舰把最宽的任务范围覆盖得很好。DeepSeek 尤其能以一个让它成为对成本敏感的通用工作默认选择的价格,拿到接近 frontier 的推理分数。
  • 孤立任务上的纯编码准确率。开源权重在 SWE-bench 类套件上的最高分,现在已落在领先的西方 frontier 模型后面个位数百分点之内。两年前还要紧的差距,对日常工程工作已基本闭合。
  • 最难的推理仍偏西方。在最难的推理和最深的 agent 循环上,最高的 Claude 和 GPT 档位仍然领先。当一个错误答案代价高昂时,一旦把修正糟糕输出的开发时间算进去,frontier 模型在总成本上仍可能胜出。我们在 如何在 2026 年降低 LLM token 成本 中谈过这个取舍。
Kevin Riedl

"基准标题告诉你先测哪个模型。你自己的评估告诉你该上线哪个。这俩不是同一个模型的频率高到,你不得不去跑那个评估。"

你能在欧盟自托管它们而不头疼合规吗?

对一个欧洲团队来说,这里是各家族分化最狠的地方,而且这里许可证比基准更要紧。

  • DeepSeek、GLM、Kimi。MIT 和修改版 MIT 权重意味着你可以把它们下载下来,在欧盟基础设施上跑推理。数据从不离开你的辖区,而你保住了价格优势。难点不是许可证,是运维分量:GPU 容量、一套推理栈,以及知道模型仍在发挥的评估纪律。
  • Qwen 开放档位。Apache 2.0 是表里最宽松的选项,自托管干净利落。但旗舰 Max 档仅托管,且跑在欧盟之外,所以一个只写“Qwen”而不点名档位的自托管方案,可能悄悄把数据路由出境。
  • Llama。自家社区许可限制了欧盟使用,这是个法律问题,不是技术问题。在你基于它构建之前先把许可立场理清,无论那个上下文窗口看起来有多诱人。

更深一层:把一个中国开源权重模型自托管在欧盟基础设施上,是同时拿到价格和数据驻留说法的那一步。通过一个欧盟之外的托管 API 跑同一个模型,给你价格,却先给你挂上一个合规问题。哪条路合适,取决于你的数据分级,以及你把推理放在自家跑的意愿。如果你的团队是头一次搭起这套内部 AI 能力,那正是我们 AI 赋能工作覆盖的领域。无论哪种,推理在哪里跑、数据落在哪里,是一个要刻意去做的决定,而不是默认。

那你到底该选哪个?

按最难改变的约束来选,而不是按标题。我们走过的顺序:

  1. 先看许可证和辖区。如果你是个需要自托管的欧盟团队,Llama 的欧盟限制大概会把它排除,于是你在 DeepSeek、GLM、Kimi 和 Qwen 开放档位之间选。在你基准测试任何东西之前先把这件事定下来。
  2. 把家族和活配对。长程编码 agent:GLM 或 Kimi K2。对成本敏感、上量的通用工作负载:DeepSeek flash 级。需求广而要宽松自托管:Qwen 开放档位。许可已理清、在西方生态里要超长上下文:Llama。
  3. 把档位选对大小。大多数流量用不上旗舰。一个便宜默认、按需升级到更强档位的做法,也就是路由模式,通常胜过在一切上都跑最大的模型。
  4. 换之前先跑你自己的评估。基准是一个起点假设,不是部署决定。在你真实的任务上搭一个小评估框架,在它碰生产之前证明模型守住质量。一个每 10 个你的任务失败 1 个的便宜模型,并不便宜。
  5. 每隔几个月重新核对。这些家族以月为节奏出新版本和新价格。今天的正确选择是一张快照,不是永久答案。

我们在生产中的 AI 工作里跑的正是这套序列,包括像 Twinsoft AI 这样的项目,让一次模型替换变安全的纪律,是评估框架,不是基准表。

那个人人都跳过的评估框架呢?

上面每条建议都建立在一件团队习惯性跳过的事上:一个建立在你自己任务上的评估框架。公开基准被污染、被刷分、落后好几个月,而且它们衡量的是不属于你的任务。在某个排行榜上居首的模型,对你的数据、你的 prompt 和你的边缘情况,仍可能是错误的选择。

这个框架不必精巧。几十个有清晰通过条件的代表性任务,对每个候选模型跑一遍,告诉你的东西比任何排行榜都多。它也是日后安全换模型的唯一办法,因为它能在几分钟内告诉你一个更便宜或更新的模型是否守住了质量线。没有它,每次换模型都是一场赌博,而一场悄悄掉质量的赌博,是整个格局里最贵的错误。

最终思考

2026 年的开源权重赛场,不是去给某一个加冕。DeepSeek 锚住价格底,覆盖宽泛的通用工作。Qwen 给你最宽的家族和最宽松的开放许可。Kimi K2 专攻 agent 编码。GLM 在长程编码上与西方 frontier 正面对决,成本只是其一个零头。Llama 带来最深的西方生态和最长的上下文窗口,但许可证是一个欧盟团队必须先理清的东西。

要紧的是决策顺序:先许可证和辖区,再把家族和活配对,把档位选对大小,并在你自己的评估上证明之后再上线。这里的价格和基准是一张方向性快照,而这些家族换版本很快,所以把任何单个数字都当作起点,并在投入前重新核对。唯一的常量是评估框架。它是“选一个模型”和“赌一个模型”之间的区别。

想要对你的模型选择来个第二意见?

 预约免费咨询
Kevin Riedl

9 min 阅读 · 25 Jun 2026