2025年,在人工智能的发展史上被标记为一个决定性的转折点。如果说之前的年份是关于模型规模的扩张(Scaling Laws)和生成式能力的普及,那么2025年则是关于推理Reasoning与验证Verification的元年。根据前OpenAI联合创始人、著名AI研究员Andrej Karpathy的一篇最新年度总结文章(2025 LLM Year in Review https://karpathy.bearblog.dev/year-in-review-2025 )以及全网相关的内容,本年度最核心的技术叙事是从依赖人类反馈的强化学习(RLHF)转向基于可验证奖励的强化学习(RLVR)。这一转变不仅重塑了模型训练的底层逻辑,更深刻地改变了软件工程的形态、人机交互的界面以及我们对“智能”本身的定义。
本文为关心大语言模型最新进展的研究者及行业决策者和普通读者提供一份详实、深度的年度技术盘点。全文约15,000字,涵盖了的开源突围、OpenAI o3的防御性反击、Claude Code引发的“Vibe Coding”编程革命、Google Gemini Nano Banana的多模态交互创新,以及“参差智能”(Jagged Intelligence)对传统基准测试体系的解构。
我们通过综合分析Karpathy的观点以及相关技术文档,试图还原一个真实的、充满张力与变革的2025年AI全景。
1.1 从 RLHF 到 RLVR:寻找客观的真理
在2025年之前,大语言模型(LLM)的训练范式主要由预训练(Pre-training)和基于人类反馈的强化学习(RLHF)组成。RLHF的核心在于利用人类标注员对模型输出的偏好进行排序,训练一个奖励模型(Reward Model)来指导LLM的优化。然而,Karpathy在年度回顾中敏锐地指出,RLHF存在根本性的局限:人类的直觉是模糊的、主观的,且难以量化。更重要的是,对于复杂的逻辑问题,普通人类标注员往往无法快速判断答案的优劣,这导致了“由于缺乏客观真理而产生的上限”。
2025年,基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR) 成为了新的事实标准。RLVR的核心逻辑在于,在数学、编程、逻辑谜题等领域,答案的正确性是客观存在的,不以人的意志为转移。例如,一段代码能否通过编译器检查并输出预期结果,一道数学题的答案是否为42,这些都是二元的、清晰的信号。
这种客观性带来了训练范式的革命。在RLVR中,我们不再需要人类去“教”模型如何说话,而是构建一个环境(Environment),让模型在其中进行自我博弈(Self-play)。模型生成一个解,验证器(Verifier)判断对错。如果错了,模型受到惩罚并尝试新路径;如果对了,模型获得奖励并强化该路径。这种机制允许模型在没有任何人类干预的情况下,通过数百万次的试错,自发地探索出人类未曾教导过的复杂解题策略。
左侧为RLHF流程,展示人类标注员对Prompt的两个Response进行Ranking,训练Reward Model,信号稀疏且带有噪声。右侧为RLVR流程,展示模型针对Prompt生成Response,通过Code Interpreter或Math Solver进行验证,返回Deterministic Reward(0或1),信号密集且精准,形成闭环的自我进化系统。
1.2 搜索与计算:System 2 思维的涌现
RLVR 的成功不仅仅是算法的胜利,更是认知科学在 AI 领域的投射。Daniel Kahneman 提出的“系统1”(快思考、直觉)与“系统2”(慢思考、逻辑推理)理论在 LLM 中找到了对应物。
Karpathy 指出,2025年的模型通过“推理时间计算”(Test-time Compute)换取了更高的智能。这意味着,即使模型参数量不变,只要给它更多的思考时间(生成更长的 CoT),它的表现就能持续提升。这一发现打破了单纯依赖参数规模(Scaling Laws)的边际效益递减魔咒,开启了新的“推理规模定律”(Inference Scaling Laws)时代。
2025年初,来自中国的 AI 实验室 DeepSeek 发布了 R1 系列模型,这被视为开源社区对闭源巨头的一次“奇袭”。DeepSeek R1 及其前身 R1-Zero 的出现,不仅在性能上比肩 OpenAI o1,更重要的是,它向全世界公开了“纯强化学习”训练推理模型的可行路径。
2.1 R1-Zero:纯粹理性的诞生与混沌
在 DeepSeek R1 发布之前,业界普遍认为,要让模型具备推理能力,必须先通过大量的监督微调(SFT)数据教它“如何思考”。即先让写好思维链的人类专家数据微调模型,然后再进行 RL。然而,DeepSeek-R1-Zero 的实验颠覆了这一认知。
纯 RL 的顿悟时刻(Aha Moment):
DeepSeek 团队直接在基础模型 DeepSeek-V3-Base 上应用了大规模强化学习,没有任何 SFT 热启动。实验结果令人震惊:模型在训练过程中自发地涌现出了推理能力。随着训练步数的增加,R1-Zero 在 AIME 2024 等数学基准测试上的通过率从 15.6% 飙升至 71.0%,甚至超过了 OpenAI o1-0912 版本。
研究人员观察到了令人激动的“顿悟时刻”。在某个训练检查点,模型生成的思维链中突然出现了自我反思的迹象。它会生成类似这样的内容:“等等,我刚才的计算步骤好像忽略了边界条件,我需要重新检查一下……”这种行为从未被人类教导过,完全是模型为了最大化“获得正确答案”这一奖励而自主演化出的生存策略。
混沌的代价:
虽然 R1-Zero 极其聪明,但它也表现出了“异类心智”的特征。由于没有人类语言习惯的约束,R1-Zero 的思维链变得极难阅读。它经常出现多语言混杂(如在一句话中混合中文、英文和代码)、无意义的重复循环,以及只有模型自己能理解的逻辑跳跃。Karpathy 将其比作“外星人的思维”,虽然能解决问题,但对人类观察者来说充满了不确定性和不可解释性。
2.2 GRPO 算法:去中心化的评价革命
DeepSeek R1 的成功离不开其背后的算法创新——组相对策略优化(Group Relative Policy Optimization, GRPO)。这一算法极大地降低了训练推理模型的计算成本,使得开源社区复现 R1 成为可能。
传统 PPO 的瓶颈:
在传统的强化学习算法 PPO(Proximal Policy Optimization)中,除了策略模型(Policy Model,即 LLM 本身),还需要训练一个同等规模的价值模型(Critic Model/Value Function),用于评估当前状态的价值。这意味着显存占用量翻倍,对于 671B 参数量的 DeepSeek-V3 来说,这是不可接受的计算负担。
GRPO 的机制:
GRPO 巧妙地移除了 Critic 模型。其核心思想是“组内比较”。对于同一个输入问题(Question),模型采样生成一组输出(Group of Outputs,例如 64 个)。
这种方法不仅节省了近 50% 的显存,还通过组内样本的相对比较,提供了比单一 Critic 预测更稳定的梯度信号。GRPO 还可以结合 KL 散度惩罚,防止模型偏离初始状态太远,从而保证了训练的稳定性。
左图 PPO 架构显示 Policy Model 与 Critic Model 并行,Critic 预测 Value 用于计算 Advantage。右图 GRPO 架构显示仅有 Policy Model,通过生成 Group Outputs ,计算 作为 Advantage,彻底移除 Critic 网络。
2.3 R1 的四阶段流水线与蒸馏技术
为了解决 R1-Zero 的可读性问题并提升综合能力,DeepSeek 最终采用了四阶段训练流水线,这套流程在 2025 年成为了行业标准:
DeepSeek 的研究还揭示了一个重要现象:推理能力可以通过“蒸馏”极其有效地传递给小模型。DeepSeek 将 R1 生成的高质量思维链数据用于微调 Qwen-32B 或 Llama-70B 等小模型,结果发现,这些蒸馏出的小模型(如 DeepSeek-R1-Distill-Qwen-32B)在数学和代码任务上的表现,甚至超过了直接在小模型上进行 RL 训练的效果,也击败了许多万亿参数的旧模型。这表明,大模型发现的推理模式(Reasoning Patterns)是可以被小模型学习和模仿的。
面对 DeepSeek 的强势挑战,OpenAI 在 2025 年推出了 o3 系列模型(o3, o3-mini, o3-pro),试图在“推理深度”和“安全性”两个维度上重新确立技术护城河。
3.1 o3 系列的技术规格与性能跃迁
OpenAI o3 是 o1 的继任者,其核心技术特征是更长的思考时间(Longer Thinking Time)和更强的工具集成能力。根据 PromptLayer 和 TechMeme 的数据,o3 在 ARC-AGI(抽象推理基准)上达到了惊人的 90% 准确率,而前代 o1 仅为 40% 左右。在 Codeforces 编程竞赛中,o3 的 Elo 分数达到了 2727 分,稳居全球顶尖程序员行列,远超 DeepSeek R1 的 2029 分。
o3-mini 的战略定位:
为了应对高昂的推理成本,OpenAI 紧随其后发布了 o3-mini。这是一个针对 STEM(科学、技术、工程、数学)领域进行深度优化的模型。令人惊讶的是,o3-mini 在 SWE-bench(软件工程基准测试)上的表现(71.7%)甚至超过了完整版的 o1(48.9%),并且推理速度快了 24%。这证明了在特定领域,通过强化学习优化的小模型可以战胜通用大模型。
工具集成的进化:
o3 不再仅仅是一个文本生成器,它在思维链中原生集成了工具使用(Tool Use)。它可以编写并执行 Python 代码来验证自己的猜想,或者调用浏览器搜索最新的信息,然后将这些外部反馈整合进思维链中继续推理。这种“推理-行动-再推理”的循环,使得 o3 在解决需要多步验证的科学问题时表现出极高的鲁棒性。









