2025年眼看就要收尾,AI圈的年终总结直接炸场了!
OpenAI元老、前特斯拉AI负责人安德烈·卡帕西(Andrej Karpathy)晒出的年终大模型清单,一发布就引爆全网,近两百万网友蹲点围观。
这位曾入选MIT35岁以下科技创新榜单的大佬,总结里没有半句废话,全是重塑行业格局的“范式级突破”。咱们今天就用大白话拆透,看看今年的AI到底藏着哪些真本事,又有哪些坑要避。
一、RLVR:靠“刷题”逆袭的训练黑科技
讲真,2025年大模型的核心提升,压根不是模型体量变大,而是训练路子换了——可验证奖励强化学习(RLVR)直接顶替了之前的RLHF,成了行业通用玩法。
以前训练大模型,全靠人类标注员打分,不仅费钱又慢,遇到数学推理这种复杂活,压根教不会。
但RLVR就聪明多了,它让模型在数学题、代码题这些有标准答案的“题库”里自己刷题,拆解步骤、试错修正,慢慢摸出最优解题思路,这种思考过程,人类想手动设计都难。
更关键的是,RLVR的评分标准客观又难作弊,能让模型长时间“刷题”修炼。
哪怕是和以前规模差不多的模型,练久了能力也能翻倍,性价比直接拉满,甚至把原本用来做预训练的算力都抢着用。
OpenAI去年底的o1模型先露了手,今年初的o3版本直接迎来质变,成了RLVR落地的标杆,能力提升肉眼可见。
不过最近也有研究泼了冷水,12月3日arxiv上的论文指出,RLVR虽能提准确率,却常靠耍表面技巧蒙混过关。
不是真懂推理,甚至用随机奖励、错误标签训练,某些模型也能涨分,换个新场景就歇菜,泛化能力还得再观察。
这也印证了Karpathy说的“锯齿智能”——现在的AI就是个偏科生,可验证领域是天才,换个场景可能就变笨蛋,就像有工程师说的,AI能解复杂难题,却可能在简单常识题上翻车。
二、Agent爆发:从云端到贴身“小助手”
不知道你有没有发现,2025年AI Agent算是彻底火出圈了,但真正能打的,反而不是云端巨头,而是扎进你电脑里的“小幽灵”。
Karpathy在清单里重点夸了Claude Code,说它是第一个让他觉得“像真Agent”的工具。
和OpenAI把Agent放在云端调度不同,Claude Code直接装在你电脑里,能用你的本地环境、数据,循环串联推理与工具调用。
再难的长周期任务都能啃下来,极简的操作界面更是戳中开发者痛点。
8月发表的研究也证实,基于Claude Code搭的多Agent框架,靠优化上下文和代码检索,能精准处理跨文件修改、架构理解这些复杂开发活,解决了单Agent上下文不够、容易瞎编内容的问题。
这种贴身干活的定位,比云端Agent更懂实际需求,用着也更顺手。
但Karpathy也没盲目吹,他10月在播客里直言,现在的Agent还有三大短板:不会持续学习、不能真正多模态、操作电脑的能力还差得远,要想达到能“雇佣”的水平,至少还得等十年。
这就像自动驾驶,从90%可靠度冲到99.9999%,每多一个9,都要付出天大的努力。
Agent爆火的同时,也带火了Karpathy随口创造的“Vibe Coding(氛围编程)”。
现在不用死磕代码,用英语就能搭复杂程序,连Meta、谷歌这些大厂的工程师,都开始用这种方式干活——先写好测试,再让AI生成代码,效率直接翻倍。
普通人能上手编程,工程师能快速赶demo、临时排bug,代码彻底变“廉价”了,用完就能丢,软件形态和职场角色都在跟着变天。
三、多模态:大模型终于有了“可视化界面”
跟你说个实话,2025年最让人惊艳的AI突破,当属Google Gemini的“nanoBanana”,它直接给大模型装上了“可视化界面”,终于不用只对着文字聊天了。
在Karpathy看来,以前的聊天式交互,就像电脑刚出现时的命令行,难用又不直观。而人类天生喜欢看图片、看图表,这也是当年GUI能取代命令行的原因。
Nano Banana最牛的地方,就是让文本、图像和世界知识在同一个模型里深度融合。
不仅能生成2k-4k的高清图、编辑图像,还能精准渲染图里的文字,支持100万token的超大上下文窗口,能处理海量信息。
12月4日的技术报告显示,Nano Banana Pro已经在生命科学领域落地用起来了,能生成精准的解剖图、代谢路径图,还能合成医学影像帮科研人员训练模型,省了不少时间。
它的意义远不止能生成图片,而是开启了大模型的“GUI时代”,未来AI交互会是图片、白板、动画的天下,现在用的Emoji和Markdown,早晚得被淘汰。
从另一个角度看,Nano Banana也是Gemini家族多模态路线的极致体现。
今年8月的官方报告就提到,Gemini从一开始就融合文本、图像、音频、视频数据训练,nano系列更是专为本地设备优化,体积小但多模态能力超强,为以后的Agent网络打下了基础。
结语
2025年的大模型,就是个“偏科天才”——靠RLVR实现能力跃迁,在可验证领域能封神,却在常识题上可能翻车;Agent和氛围编程改变了工作方式,却还没成熟到能“打工”。
Nano Banana开启了可视化时代,让AI交互更直观。但不可否认,行业已经跨过纯文本门槛,朝着本地化、可视化、实用化狂奔。
Karpathy说行业潜力才发挥10%,这话一点不假。现在的AI就像刚学会走路的孩子,未来十年会慢慢融入每份工作、每种生活,咱们能做的,就是跟上节奏,别被时代甩在身后!










