开源大模型技术路线及趋势

1. 三个维度

旗舰开源模型的形态/模态

基础大模型 -> instruct大模型 -> 多模态（VL大模型 -> 类gpt-4o大模型）

2. 核心观察

学术机构及创业公司式微，科技大厂主导开源大模型。

随着资源需求越来越大，学术机构由于资金不足而逐渐式微，基础大模型的开源主力，从百花齐放收敛到科技大厂，而前沿模型尤以llama及qwen为主。（比如，智源研究院不再发布新的基础大模型，上海AI实验室开源的大模型一直未能突破20B）

科技大厂，除meta（llama）和阿里（qwen）外，虽然谷歌、微软、苹果也加入开源赛道并愈加重视，但仍局限于30B以下的轻量模型。因此，前沿开源大模型，国外仍由llama引领（grok次之），国内由qwen引领（deepseek次之）。

大模型创业公司，除了x.ai和deepseek外，也逐渐回归商业，要么直接退出开源赛道，要么保守发布轻量版模型（比如，百川已经不再发布新的开源大模型，智谱GLM开源模型始终不超过10B，零一万物开源模型不超过34B，gpt/claude/minimax/kimi未开源）。

3. 开源技术路线

仅论通用模型，不含领域模型。

（1）23年上半年

关键词：微调、汉化
痛点/机会点：没有足够好用的instruct模型、擅长中文的模型
彼时，llama1尚未发布instruct模型，不少学术机构及科技公司，从事基于llama的微调和汉化并开源（比如斯坦福的alpaca、UC伯克利的vicuna、IDEA研究院的ziya、链家科技的belle），也有部分组织直接攻入基础模型（比如智源研究院的aquila）。

关键词：基础模型
痛点/机会点：基础模型还不够好
llama2同时发布基础和instruct模型，此时，微调llama的空间变小但汉化llama依旧很有必要。之后随着baichuan2-13B、qwen-72B的开源，汉化llama的必要性已经微乎其微。因此，开源生态的竞争缩小到基础模型上面，学术机构、创业公司频繁交替开源更强的基础模型（比如aquila2-70B、xverse-65B、deepseek-67B），主流的顶尖模型已推进到70B的门槛。

（3）2024年

关键词：多模态
痛点/机会点：没有足够好用的开源多模态大模型
由于顶尖模型的门槛已到70B，继续竞争太耗资源，而且难敌重金押注的llama（已经卷到405B），几乎所有学术机构及大部分科技公司退出顶尖开源模型的竞争，而将注意力和研发资源转向“并不太耗资源的”多模态大模型（比如internVL、llava、minicpm-v、cogvlm）。

（4）2025年（预期）

关键词：开源界的通用大模型竞争结束
痛点/机会点：转向大模型应用，包括agent、领域大模型25年甚至更早（24年底），meta会推出顶尖的多模态大模型llama3.1-v甚至llama4-v（阿里很可能推出qwen2-vl），届时，大部分学术机构及科技公司微调的多模态大模型将失去竞争力，大模型应用将广泛使用meta及阿里的开源多模态大模型。