大模型涌现能力的参数量阈值调研

「大模型参数量到多少会出现涌现」是一个 2022-2023 年特别流行的提问。彼时 GPT-3 175B、PaLM 540B 的能力跃迁刚被命名为 "emergent abilities"，业界普遍相信存在一个清晰的参数量门槛——跨过去，模型就突然学会了 few-shot、CoT、指令跟随这类「质变」能力。

三年过去，这套叙事已经被两轮强冲击修正：先是 2023 年 Stanford 的反驳论文指出大部分「涌现」是评测指标的非线性错觉；再是 2024-2026 年 Llama 3 / Qwen 2.5 / DeepSeek-R1 这一批 7B-32B 小模型，靠数据 + 后训练 + 推理 RL 直接把当年「千亿模型才有的能力」做到了消费级显卡上。

这篇调研的目的不是给一个新的「阈值数字」，而是把这条结论的兴衰路径讲清楚，让今天再被问到「多少 B 会涌现」时知道该如何回答。

一、是什么

涌现能力（Emergent Abilities）的原始定义（Wei et al., 2022）：

An ability is emergent if it is not present in smaller models but is present in larger models. 一种能力在小模型上不存在、在大模型上存在，就叫做涌现。

这个定义有两个关键操作化：

不存在 → 存在：用一个固定阈值（比如 GSM8K 准确率 > 随机猜）来判定「有/无」。
以训练 FLOPs 或参数量为 X 轴：曲线在某个规模点突然抬头。

按这个定义，2022 年的经典论文给出过几个常被引用的数字：

能力	论文里报告的「起跳点」
Few-shot in-context learning	GPT-3 在约 13B 后明显有效，175B 成熟
Chain-of-Thought 推理	约 68B-100B 才在 GSM8K 上跑出来，PaLM 540B 表现最强
复杂指令跟随 / 多步算术	通常落在几十 B 到 100B+ 区间
BIG-Bench 困难子集	部分任务在数百 B 才超越随机

所以早期口径里的「涌现阈值」是一个模糊带：10B 起、100B 成熟、540B 完整。

二、为什么重要

这条结论在 2022-2023 年深度影响了行业判断：

资本叙事：OpenAI、Anthropic、Google 都用「scaling 必然带来涌现」论证训练千亿、万亿模型的合理性，催出大模型军备竞赛。
国产追赶路径：国内多家厂商把「先把参数量堆到 100B+」作为团队 KPI，理由就是「不到这个规模做不出真正的能力」。
端侧悲观论：「7B/13B 模型只能做玩具，认真业务必须上百亿千亿」是 2023 年的主流观点，直接影响了端侧 AI 的投资节奏。
学术框架：emergent abilities 成为对齐、可解释性、AI safety 讨论的高频前提——「能力是突变的，所以风险也是突变的」。

如果这条结论站不住，上面这些判断的根基就被抽走了。所以它不是一个纯学术问题，而是关系到投资方向、研发路线、安全叙事的核心命题。

三、关键玩家与生态

围绕「涌现」这条命题的三条主要力量：

1. 支持派（涌现是真实的质变）

Google Brain / DeepMind：Jason Wei 等人 2022 年的原始论文是这一派的奠基。PaLM、Gemini 系列内部一直以「scaling 带来新能力」作为路线依据。
OpenAI：GPT-3 → GPT-4 的发布博客和技术报告反复强调能力的阶梯式跃迁。
Anthropic：早期 Predictability and Surprise 论文也持类似立场，把涌现与对齐挑战绑定。

2. 反驳派（涌现是评测指标的错觉）

Stanford / Schaeffer et al. 2023：《Are Emergent Abilities of Large Language Models a Mirage?》——直接质疑涌现的真实性。该论文获 NeurIPS 2023 Outstanding Paper Award。
EleutherAI / Big Science：开源社区在复现实验中发现，换用连续指标（log-likelihood、token-level accuracy）后，所谓「突然抬头」基本消失。

3. 路线改写派（涌现的阈值早已下移）

Meta（Llama 3 系列）：用 15T tokens 训练 8B 模型，能力对标早期 70B+。
阿里 Qwen 2.5 / Qwen3：7B 已具备稳定的指令跟随、CoT、工具调用能力。
DeepSeek：R1 通过纯 RL（RLVR）让 32B distill 模型在数学/代码上接近闭源前沿。
OpenAI o1 / o3 系列：把能力增长从「训练时参数」迁移到「推理时算力」，参数量不再是核心变量。

四、技术 / 实施细节

4.1 经典版本：Wei et al. 2022 的「涌现曲线」

论文方法很简单：

选 200+ 个 BIG-Bench 任务
把 LaMDA / GPT-3 / PaLM 等不同规模模型放在同一张图上
X 轴是训练 FLOPs（log 尺度），Y 轴是任务准确率
找出那些「在小规模下接近随机、在某个规模后陡升」的任务

得到结论：约 10²² FLOPs（对应 GPT-3 13B 量级）开始出现 few-shot 涌现；约 10²⁴ FLOPs（对应 PaLM 540B 量级）出现 CoT 涌现。

4.2 反驳：Schaeffer et al. 2023 的「海市蜃楼」

核心论点：涌现不是模型的属性，而是评测指标的属性。

证据链：

指标非线性：exact-match、multi-step accuracy 这类指标要求「全对才算分」。当模型在每一步的 log-likelihood 是平滑提升时，全对概率就会呈指数式陡升——视觉上看像突变，实质是连续。
换指标重做：把同样的任务换成 token-level edit distance、Brier score 等连续指标，「涌现曲线」全部变成平滑曲线。
人造涌现：作者展示了如何在视觉任务上用类似指标人为制造出「涌现」，证明它是评测设计的产物。

这个反驳没有完全否定涌现的存在（少数任务即使换指标仍有跳变），但把「广泛涌现」的叙事打掉了一大半。

4.3 路线改写：2024-2026 年的三条新轴

轴一：数据 > 参数（Chinchilla 之后）

DeepMind 2022 年的 Chinchilla 论文已经证明，给定算力预算下，「更多数据 + 更小模型」优于「更少数据 + 更大模型」。这条结论在 2024-2025 被 Llama 3 推到极致：8B 模型用 15T tokens 训练，参数量与 2020 年 GPT-3 相比小了一个数量级，能力却接近 175B 版本。

轴二：后训练（SFT + RLHF + RLVR）撑起能力下沿

SFT：高质量指令数据让 7B 模型也能稳定跟随指令。
RLHF：让模型学会人类偏好，是 ChatGPT 之后所有模型的标配。
RLVR（Reinforcement Learning with Verifiable Rewards）：DeepSeek-R1、Qwen-Math 等用「答案可验证」的任务（数学、代码）做 RL，让小模型获得高质量推理能力，参数量不再是关键约束。

轴三：推理时算力（test-time compute）

OpenAI o1 / o3、DeepSeek-R1 的范式转变：能力不再来自「训练时把模型做大」，而来自「推理时让模型思考更久」。一个 32B 模型如果在推理时生成 10k tokens 的 reasoning chain，可以打过一个 1.8T 参数、推理只生成 200 tokens 的传统模型。

这三条轴合起来，让「参数量阈值」这个提问失去了讨论价值——同样的能力，2026 年用 7B + 后训练就能拿到，谈「100B 才涌现」已经不成立。

4.4 一个对照表

能力	2022 年阈值	2026 年阈值
流畅多轮对话	100B+	1.5B-3B
Few-shot 指令跟随	13B-175B	7B（已成 baseline）
CoT 数学推理	540B（PaLM）	7B-8B（带 RLVR 后训练）
代码生成（HumanEval > 70%）	GPT-4 级	7B-14B（Qwen2.5-Coder、DeepSeek-Coder）
长上下文检索	千亿 + 长上下文训练	与参数量基本解耦，看 RoPE / position encoding 方案

五、争议与风险

1. Schaeffer 论文也有反对意见

部分研究者（包括原 Wei 团队）反驳：即使换连续指标，仍有少数能力（如 modular arithmetic、特定 BIG-Bench 任务）存在真实的相位跃迁。「全部都是指标错觉」也是夸大其词。温和的共识是：广泛涌现是错觉，但局部、特定任务的能力跳变是真实存在的。

2. 「小模型能力对齐大模型」的对照很容易作弊

Llama 3 8B 在某些 benchmark 上接近 GPT-3.5，但在长 horizon planning、跨领域知识广度、稀有语言、长尾事实记忆等维度，参数量仍然是硬约束。「小模型已经够用」很多时候只在 benchmark 上成立，在真实业务里仍然吃亏。

3. 推理时算力的成本陷阱

o1 / R1 路线把能力换算成 token，但 token 是有成本的。一个 32B + 10k reasoning tokens 的方案，在延迟和单价上未必比 200B + 短回答便宜。「参数下移」并不等于「成本下移」。

4. 能力可预测性下降，对 safety 反而更难

经典涌现叙事虽然可疑，但它给了 safety 一个清晰的讨论框架：能力跳变 = 风险跳变。如果今天能力增长来自后训练 / RL / 推理算力的复合作用，那么「下一个能力跃迁会从哪里来」反而更难预测，对齐工作更难提前布防。

5. 阈值话术仍在被滥用

国内一些路演 PPT 还在用「我们做到了 XX B，跨过了涌现门槛」作为卖点。这种说法在 2026 年基本属于过时甚至误导——参数量本身已经不是能力的充分条件，也不是必要条件。

六、个人结论

一句话定性：「参数量到多少会涌现」是一个 2022 年的提问方式，2023 年被部分证伪，2024-2026 年被彻底改写——今天再用「参数量阈值」框架谈大模型能力，基本是过时的。

是否跟进：

作为历史脉络：值得跟进。理解涌现叙事的兴衰，是理解大模型行业过去四年路线变化的关键线索，对判断未来叙事的可信度有帮助。
作为现在的判断框架：不要再用。判断一个模型能否胜任某个任务，应该看的是：基座模型质量 + 后训练方案 + 推理时算力预算 + 任务可验证性，而不是参数量数字。
作为投资 / 路线决策依据：完全不跟进。任何以「我们做到 XX B，跨过涌现阈值」为核心论据的项目都值得警惕。

下一步：

把这篇调研沉到二级目录，首页不主推（按内容策略约定，AI 协助调研属于 commodity）。
后续如果要写「为什么 7B 模型已经够用」「推理时算力 vs 训练时算力的成本经济学」这类延伸主题，可以反向引用本篇做背景。
在与非技术朋友讨论大模型时，遇到「多少参数才算大模型」这类提问，用本篇的结论快速纠偏：问错了问题。

七、信息来源

Emergent Abilities of Large Language Models (Wei et al., 2022) — 涌现叙事的奠基论文
Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al., 2023) — NeurIPS 2023 Outstanding Paper，海市蜃楼反驳
Training Compute-Optimal Large Language Models (Chinchilla, Hoffmann et al., 2022) — 数据 > 参数的奠基论文
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022) — CoT 涌现的原始报告
The Llama 3 Herd of Models (Meta, 2024) — 8B 用 15T tokens 训练的工程报告
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek, 2025) — RLVR 让小模型获得推理能力
Learning to Reason with LLMs (OpenAI o1 blog) — 推理时算力范式的官方阐述
Predictability and Surprise in Large Generative Models (Anthropic, 2022) — 涌现与 safety 的早期连接