今天发布的OpenAI总裁Greg Brockman 最新访谈深入探讨了 OpenAI 的战略重心转移、下一代模型 SPUD 的开发逻辑,以及“”(Super App)的宏伟愿景。Greg详细解释了为何在算力受限的现实下,公司选择优先发展 GPT 而非视频生成技术,并分享了 AI 如何通过自主 Agent 改变知识工作和个人生活的深远见解。
在布罗克曼的记忆中,公司内部最紧张的时刻并非初创时的艰辛,而是发布聊天机器人程序之后的“压迫感”。面对爆发式增长的需求,他曾对团队下达了几乎疯狂的指令:“把所有的算力都买下来。无论我们尝试构建多少,我知道我们都无法跟上需求”。
这种紧迫感迫使公司必须进行残酷的优先级排序。尽管视频生成模型“索拉”在视觉效果上令人震撼,但公司决定暂时放缓其商业化步伐,将核心算力向更具确定性的“推理模型”倾斜。布罗克曼认为,技术已经跨越了基准测试的实验室阶段,正进入“真实世界应用”的深水区。
“这并不是说我们正从消费级业务转向企业级业务”,布罗克曼解释道,“我们真正想要表达的是,我们必须专注于那些最重要的应用。在算力有限的世界里,分支太远是极难维持的”。在他看来,个人助理和能够解决复杂难题的推理系统才是优先级塔尖上的明珠。
布罗克曼心中的终极产品,并非一个简单的聊天框,而是一个被他称为“超级应用”的统一入口。这个应用将整合代码编写、网络浏览、个人助理等多种功能,成为每个人进入数字世界的个人终端。
“我们想要为你构建一个终端应用程序,让你真正体验到通用人工智能的力量”。布罗克曼描绘了一个能够记住用户的偏好、连接日历与邮件、并能独立操作浏览器的智能实体。它不仅能为你起草婚礼致辞,还能在后台为你经营一家小型企业。
这种愿景的实现依赖于技术的底层统一。布罗克曼强调,过去几年最核心的改变在于,人工智能不再仅仅是一个模型,而是一个包含上下文获取、行动执行和循环反馈的完整框架。“我们将推出一个统一的版本,形成一个可以指向特定应用的智能层”。这意味着,无论是金融、法律还是创意写作,用户都将通过这个全能的交互界面获得服务,这正是通用人工智能中“通用”二字的真实体现。
关于下一代代号为“斯帕德”的模型,布罗克曼虽然保持了技术人员的谨慎,但言语间透露出巨大的期待。他将其定义为一个新的“基座”,凝聚了公司过去两年的研究心血。
“我认为它将能够解决更加困难的问题,表现得更加细腻,更完美地理解语境”。布罗克曼观察到,当模型能力跨越某个门槛时,会出现所谓的“大模型气息”——即一种让用户几乎不需要动脑筋就能得到精准反馈的质变。
这种能力的提升已在科学发现领域初露锋芒。布罗克曼分享了一个案例:一位物理学家将一个困扰已久的难题交给模型,12小时后便得到了解决方案。“他说,这是他第一次感觉到模型在思考。这种通过强化学习获得的推理能力,正在将人工智能从一个‘辅助工具’转变为‘科研合伙人’”。
随着人工智能向更具自主性的“代理”演进,布罗克曼提出了一个极具前瞻性的管理模型:每个人都将成为拥有成千上万个智能代理舰队的“首席执行官”。
在这种模式下,人类不再深陷于底层的机械性操作,而是负责设定愿景、提供反馈和最终问责。但布罗克曼也发出了警告:“如果智能代理把事情搞砸了,这并不是代理的错,而是你的错。人类的自主权和问责制是系统中的核心部分”。
他认为,这种转型不仅是效率的提升,更是创造力的解锁。就像国际象棋中的神之一手,人工智能将在材料科学、生物医疗甚至文学诗歌中,以人类无法想象的方式打破思维的边界。“人工智能将释放大量时间来增加人与人之间的联系,让我们花更多时间去做自己真正想做的事情”。
在布罗克曼看来,我们正处于人工智能“起飞”的引擎加速期。尽管社会对算力能耗、就业替代存在种种忧虑,但他坚信,通过亲身体验消除对“”的恐惧,是通往未来的唯一路径。
这场从底层模型到全能超级应用的战略大迁徙,本质上是让机器更贴近人类意图的过程。正如布罗克曼所言,“如果你能培养起这种作为管理者的主动性,人工智能就将成为提升全人类上限的杠杆”。在通用人工智能实现的倒计时中,每个人都应学会如何指挥属于自己的智能舰队。
Greg Brockman: 我认为非常明确的一点是,在未来几年内,我们将拥有一种即便仍显粗糙,但几乎可以胜任任何计算机智能任务的 AI。AI 将能够做到这一点。
在 OpenAI 内部,最令人恐惧的时刻其实是在我们发布 ChatGPT 之后。我记得当时在参加节日派对时,那种氛围让我感到一种压迫感。我从未有过那种感觉。我当时的感觉是,要知道我们一直是处于劣势的一方,这一点从未改变。从我们发布 ChatGPT 的那一刻起,我记得曾与团队进行过一次具体的对话,我问:我们应该购买多少算力?我说:把所有的算力都买下来。我说:不,不,不,认真的,我们到底应该买多少算力?我说:无论我们尝试构建多少,我知道我们都无法跟上需求。
Alex: OpenAI 联合创始人兼总裁 Greg Brockman 加入我们的访谈,探讨 AI 最具前景的机遇、OpenAI 计划如何利用这些机遇,以及什么是 Super App。Greg 今天也来到了我们的演播室。Greg,很高兴见到你。
Greg Brockman: 感谢邀请我来。
Alex: 我们现在谈论的这个时刻,OpenAI 正准备停止视频生成业务,并将精力集中于开发一款超级应用,该应用将整合商业和编程的使用场景。我想对于我们这些外部观察者,包括我自己在内,都会认为 OpenAI 在消费者市场正处于领先地位。而现在它却在调整资源配置。究竟发生了什么?
Greg Brockman: 我认为可以这样理解:我们一直处于这样一个世界中,即通过开发深度学习技术来验证它是否真的能产生我们所预期的积极影响。它是否能被用于构建帮助人们、改善他们生活的应用程序?与此同时,我们还有另一个团队在尝试部署这项技术,无论是为了维持业务运营,还是为了在获得现实世界影响方面积累实践经验,都是出于这些考量。
当这项技术真正成熟,真正成为我们所想象的那样——那也是我们创立这家公司的初衷——的那一天到来时。我认为我们现在正处于这样一个时刻,我们已经确切地看到这项技术是切实可行的。我们正在脱离单纯的基准测试和某种近乎于理性的能力演示阶段,转而进入一个实际阶段:为了进一步发展它,我们需要在真实世界中观察它,并获取人们在知识工作及各种应用场景中如何使用它的反馈。
所以我认为这是一次重大的战略转型,这是由技术所处的阶段决定的。这并不是说我们正从消费级业务转向 B2B 业务。我们真正想要表达的是,我们应该专注于哪些最重要的应用?毕竟我们无法面面俱到,但在构建过程中,有哪些事情是我们能够实现的,并能产生协同效应,从而带来切实的深远影响,并帮助提升每个人的水平呢?
当我们审视这个清单时,确实有消费级应用,你可以把它理解为很多事物,但本质上就是一个个人助理,一个了解你且与你的目标保持一致的助手。它将帮助你实现生活中任何你想要达成的目标。此外还有创意表达和娱乐,以及许多其他应用场景。
从商业角度来看,或许如果你放眼全局,事情看起来更像是:你面对一项艰巨的任务。AI 能去完成它吗?它是否具备完成所有这些事项所需的全部背景信息?对我们而言,很明确的一点是,优先级排序中最顶端的两件事包括:其一是个人助理;其二是能够去为你解决难题的 AI。
当我们审视现有的计算资源时,甚至会发现我们连支持这两项业务的算力都不够。一旦我们开始加入许多其他应用,以及其他许多 AI 将大有可为并能造福于人的场景时,我们根本无法兼顾所有领域。因此,我认为这是对技术成熟度及其将迅速产生的巨大影响的一种认知,同时也反映了我们需要进行优先级排序,并真正挑选出我们希望重点打造并带给世界的应用集合。
Alex: 当我听到你谈论 OpenAI 的各种赌注时,你描述的方式之一是:OpenAI 可以成为 Disney 的一个版本,或者像 Disney 那样,在核心位置拥有这种极具吸引力的优势,然后以不同的方式将其扩展应用。Disney 拥有 Mickey Mouse,以此为基础可以进行电影制作、运营主题公园以及通过 Disney Plus 提供服务。对于 OpenAI 而言,核心是模型,你可以用它进行视频生成、担任助理,并助力企业办公与各类工作。
那么,那种拥有核心优势并将其衍生应用到各种领域的发展模式,现在已经行不通了吗?或者说,你是否已经意识到,现在到了必须做出取舍的时候了?
Greg Brockman: 事实上我认为在某些方面,那种叙事逻辑比以往任何时候都更加适用。但必须意识到,从技术角度来看,SORA 模型——顺便提一下,这是非常出色的模型——与核心推理系列的 GPT 在技术树上属于不同的分支。它们的构建方式完全不同。从某种程度上说,我们实际上是在表达,对于这些应用而言,同时推进两条技术路线对我们来说难度极大。
不过,我们确实正在机器人领域继续推进 SORA 的研究计划,我认为这显然会带来颠覆性的改变。
这一应用目前仍处于研究阶段,机器人技术尚未真正成熟并大规模部署,其发展程度还远未达到我们预期在未来一年内所见到的,那种基于知识工作领域技术的真正爆发式增长。
因此,这是一种共识,即在当下这个时刻,我们确实需要将主要精力放在开发 GPT 系列上。这不仅仅是指文本。也不仅仅是指大脑思维层面的事物。例如,实现双向交流,拥有一套出色的语音对语音交互界面,这同样会让该技术变得非常易用且实用,但这并非技术树上的另一个分支。它们在某种程度上都属于同一个模型,我们只是以略有不同的方式对其进行调整,正如你所描述的那样。
所以我认为,如果你分支得太远,产生了两个不同的产物,在算力有限的世界里,这是非常难以维持的。算力之所以有限,是因为需求实在太大了。人们希望用我们创造的每一个模型去完成的事情太多了。
Alex: 好的。那么谈谈为什么你的赌注没有押在这上面。看起来像是一种世界模型版本,让视频能理解物体运动的去向。这显然对机器人技术很有用。为什么你押注的是 GPT 推理模型树,而不是你在 Sora 上看到真正进展的这一领域?看到视频生成的进展,Generation 1、2、3 的进步是非常巨大的。那么,为什么你的押注点在于此?
Greg Brockman: 这个领域的问题在于机会太多了,我们在 OpenAI 很早就观察到的一件事是,我们能想象到的每一件事都行得通。当然,这其中伴随着不同程度的阻力、不同数量的工程投入、不同的算力需求,以及所有这些因素。但每一个不同的想法,只要在数学上是合理的,你实际上都能开始得到相当不错的结果。
我认为这展示了深度学习底层技术的强大能力,即真正处理任何类型问题并触及核心的能力,从而拥有一种真正理解其内在逻辑的 AI。即生成这些数据的底层规则。所以,关键不在于数据本身。关键在于理解其潜在的运作过程,并能够将其应用到新的情境中。你可以利用世界模型来实现这一点。你可以在科学发现中实现这一点。你可以在编程中实现这一点。
我认为,当我们思考这项技术的推广时,核心在于——正如大家所知,此前一直存在关于文本模型究竟能走多远的争论。文本智能究竟能达到什么程度?人工智能是否能真正构想出世界的运作方式?我认为我们已经明确回答了这个问题:它必然会通向 AGI,我们已经看到了实现路径;在此刻,我们明确知道今年会有更优秀的模型问世,而在 OpenAI 内部,我们就如何分配算力所面临的痛苦抉择,其程度只会随时间推移而增加,不会减少。
所以,我认为核心可能在于关于顺序和时机的把控。在当下这一时刻,那些我们梦寐以求的应用场景正逐渐变得触手可及。例如,解决尚未攻克的物理学难题,我们最近得到了这样一个结果:一位物理学家研究某个问题已经有一段时间了。他把问题交给我们的模型,12 小时后,我们就得到了解决方案。他说,这是他第一次感觉到模型在思考,他觉得这是一个人类可能永远无法解决的问题。但我们的 AI 解决了它。
当你看到类似这样的事情时。你就必须加倍投入。你必须三倍投入,因为我们确实可以为人类释放所有这些潜力。所以我认为对我而言,这无关乎这些事情的相对重要性。这更多是关于 OpenAI 致力于向世界提供 AGI 的使命,我们对于它如何造福每个人的愿景,以及这样一个事实:我们拥有一棵技术树,我们知道如何去推进它,如何进行工程实施,如何开展进一步的科学研究,从而让这一切最终实现。
Alex: 好的,我确实想回到你所预期的下一代模型上来。但我还是想就这一点对你进行追问。今年早些时候,我与 Google DeepMind 的 Demis Hassabis 谈过。有趣的是,他说对他而言,最接近 AGI 的东西是他们拥有的图像生成器 Nano Banana。原因在于,一个图像生成器或视频生成器若要创作出它所呈现的图像和视频,确实必须理解物体之间的交互,并对世界如何运作拥有至少某种概念。
那么,这是否是一个潜在的风险?我是说,这是一个巨大的赌注,但如果情况确实如此,OpenAI 是否会因为在另一条路径上持续加注而错失某些东西?
Greg Brockman: 这有两个答案。首先是肯定的。是的。在这个领域里依然没有所谓的定论,你确实必须做出选择,你必须进行押注。而这正是 OpenAI 最初的起点。我们当时真正思考的是,我们所笃信的 AGI 路径究竟是什么,并为此投入了大量心血。没错。随机向量的总和为零。但如果你能对齐向量,那么你就能朝着一个方向前进。
但第二点是,图像生成在 ChatGPT 中实际上一直非常非常受欢迎。这是我们持续投资、持续优先考虑的领域。我们之所以能够做到这一点,是因为它实际上并非基于世界模型,也不是扩散模型技术分支。它实际上是基于 GPT 架构的。因此,即便数据分布不同,但其核心技术和底层架构始终是统一的。
这就是 AGI 最令人惊叹的地方:有时这些看起来迥然不同的应用,比如语音到语音、图像生成、文本,顺便提一下,文本本身就涵盖了科学、编码以及个人健康、信息等诸多层面。所有这些,你都可以在同一个技术框架内完成。因此,从技术角度来看,我所关注的以及我们公司所关注的很多内容,是如何实现我们技术的高度统一。统一我们的工作重心,因为我们确实认为这项技术将能够提升并推动整个经济的发展。整个经济是一个庞大的体系。所以我们不可能包揽一切,但我们可以尽到自己的责任。这就是通用人工智能中的“通用”部分。
Alex: 这就是那个 G,这就是那个 G。这就是其中的关键所在。确实如此。说到统一,这个超级应用到底是什么?我对于超级应用的构想是,它将整合 Taylor coding、浏览器以及 ChatGPT。
Greg Brockman: 没错,就是这样。所以,我们想要为你构建一个终端应用程序,让你真正体验到 AGI 的力量,即它的通用性。如果你思考一下今天的 ChatGPT 是什么样的,我认为它最终会成为你的个人助理,你的个人 AGI,一个为你着想、对你了解颇深、与你的目标保持一致、值得信赖,且在数字世界中代表你的人工智能。
你可以把 Codex 视为目前我们为软件工程师开发的工具,但它正在向大众普及,任何想要构建事物的人都可以使用 Codex 来实现目标,让计算机去完成他们想要执行的任务。而且这不再仅仅局限于实际的软件开发。它实际上几乎涵盖了计算机的使用,比如我用它来设置笔记本电脑的偏好选项。就像我总是忘记如何设置热点角(hot corners)。你只需要让 Codex 去做就行了。它直接就完成了。
没错,计算机本应如此,即让计算机顺应人类的需求,而不是让我去迁就它。对他们而言。试想有这样一个应用程序,任何你希望计算机完成的任务,你都可以要求它去做。因此,内置了供 AI 使用的计算机浏览功能,使其能够实际操作网页浏览器,并让你能够监督 AI 的行为;无论是在聊天、代码编写还是通用知识工作方面,你所有的对话都会以统一的方式整合在一起,且 AI 具备记忆功能,了解你的需求。
这正是我们正在构建的目标。但这实际上只是冰山一角。对我而言,更重要的是技术的统一化。我们此前在讨论底层模型时已经略有提及。但在过去几年里,真正发生改变的是,核心已不再仅仅是模型本身。核心在于配套的框架。核心在于模型如何获取上下文。它是如何与世界相连的?它可以采取哪些行动?在获取新的上下文时,与模型交互的循环是如何运作的?所有这些我们之前都有过多种实现方式,彼此略有不同,而我们正在将它们进行整合。
我们将推出一个统一的版本,最终形成一个可以以极其轻量的方式指向特定应用的 AI 层。因此,如果你确实需要针对金融或法律领域的专业工具,你可以构建一个小插件、一项小技能或一个小型 UI,但通常你并不需要这样做,因为会有一个功能极其广泛的超级应用。
Alex: 这个应用既适用于商业场景,也适用于个人场景。
Greg Brockman: 核心点就像计算机或你的笔记本电脑一样,它是供个人使用的吗?它是供商业使用的吗?其实两者皆是。两者皆是。而且这是为你准备的。这是你的个人终端,为你提供了一个进入这个数字世界的交互界面。而这正是我们想要构建的目标。
Alex: 那我仅从非商业的角度谈谈我的想法。我在个人生活中也在使用这个超级应用。我用它来做什么呢?我的生活发生了怎样的改变?
Greg Brockman: 你可以把它看作是个人生活的一部分,就像你使用 ChatGPT 的方式一样。你现在是如何使用 ChatGPT 的呢?人们正将其用于各种各样真正令人惊叹的应用场景中。有时这仅仅是某种诉求,比如我打算在婚礼上致辞。你能帮我起草一下吗?如果你能针对我的这个想法提供一些反馈,我正在筹备一家小型企业。你能在这方面给我一些建议吗?或许能以此作为连接个人生活与工作的桥梁?
这些问题中的任何一个,都应该是你可以向超级应用寻求答案的内容。但如果你回想一下 ChatGPT 一直以来的发展,它已经在不断演进。它过去没有任何记忆功能,对每个人来说,它始终是从零开始的同一个 AI。这简直就像是在和一个陌生人交谈。如果它能记住你,记住你们之间过往的互动,那将会强大得多。
如果它能获取上下文,比如连接到你的电子邮件和日历,真正了解你的偏好,并拥有关于你的一套更深层次的过往经验,从而能够利用这些来实现你的目标,那么它会强大得多,看看像 ChatGPT 中 Pulse 这样的功能,它目前每天都会根据 ChatGPT 对你的了解,为你呈现你可能感兴趣的内容。所以我认为,在个人应用层面,Super App 将会实现所有这些功能,并且会以一种更深入、更丰富的方式来完成。
Alex: 你们计划什么时候发布它?
Greg Brockman: 你可以这样理解:我们正在采取循序渐进的步骤,在未来几个月内实现这一目标。我们应该已经发布了这里所谈论的完整愿景,但它会分阶段呈现。我们开始的地方是,例如今天的 Codex app,它实际上是二合一的产品。它是一个可以调用工具的通用智能体框架。同时它也是一个懂得如何编写软件的智能体。那个可以被使用的通用智能体框架。用于处理如此多不同的事务。你可以将其与电子表格关联。你可以将其与 Word 文档关联。它能够协助你进行知识工作。因此,我们将使 Codex 应用程序在通用知识工作方面变得更加易用,因为正如我们在 OpenAI 内部所见,人们已经在自发地将其用于此类工作。这将是第一步,未来还会有更多进展。
Alex: 我昨天与你的一位同事交谈时看了一下 Codex。他提到有人在使用 Codex 时,指示它辅助进行视频剪辑。它构建了一个适用于 Adobe Premiere 的插件,开始将其划分为不同章节,并着手进行剪辑。这就是我们所关注的景象。
Greg Brockman: 听到这些我感到非常高兴。这正是我们希望该系统能够发挥作用的领域。观察到的情况非常有趣,比如 Codex 最初是为软件工程师打造的应用。目前它对于非软件工程师的易用性实际上相当低,因为在设置过程中会遇到许多细小的问题,开发者知道这些错误意味着什么以及如何修复。这仅仅是我们已经习以为常的事情。但如果你不是开发者,你会困惑这是什么?就像这不是我以前遇到过的问题。
尽管如此,我们还是看到从未有过编程经验的人开始使用它来构建网站,实现你所说的那些功能,比如自动化处理与不同软件之间的交互,从而获得强大的杠杆效应。例如,我们公关团队的一位成员将其连接到 Slack 和电子邮件,能够高效处理大量反馈并进行很好的综合整理。因此,对于这类任务,非常有动力的人愿意克服这些障碍并从中获得巨大回报。在某种程度上,我们已经完成了 AI 最艰巨的部分,即打造一个真正智能、有能力且确实能完成任务的系统,现在我们需要完成从某种意义上来说更容易的部分,即使其得到广泛应用并消除这些入门门槛。
Alex: 看看竞争格局,Anthropic 推出了 Claude 应用。你可以使用 Claude 聊天机器人、Claude cohort 和 Claude code。所以他们也拥有自己版本的超级应用。我很好奇你认为 Anthropic 看到了什么,才让他们能更早地占据这个位置。你认为你们追赶上来的机会有多大?
Greg Brockman: 我认为如果回溯到 12 到 18 个月前的话。
我们一直专注于编程这一领域。我们在各类编程竞赛以及这些极其考验智力的项目中,一直拥有最好的成绩。但我们没有投入足够精力的地方,是用户体验的最后一公里,即真正去思考:这个 AI 非常聪明。它可以解决所有这些伟大的编程竞赛题目,但它从未见过现实世界中杂乱无章的代码库,而这些代码并不像它所经历的那种世界那样纯粹。
我认为我们在这一点上确实落后了。但在去年年中左右,我们开始非常认真地对待这个问题,并成立了一个团队,专门研究所有的差距,以及我们尚未遇到的各种现实世界中的复杂状况。我们该如何获取训练数据来构建训练环境,让 AI 体验真实的软件工程工作,比如面对各种奇怪的干扰等。我想说的是,目前我们已经追赶上来了,当人们将我们与竞争对手进行正面比较时,往往会更倾向于选择我们。我们确实知道自己在前端方面表现有所滞后。我们将着手解决这个问题。
这就是我们一直在采取的总体方针,即不仅仅是考虑单一模型,还要从端到端的产品角度去思考可用性,而不是构建一个独立的东西,在进行研究时,确实要将其视为一个完整的产品。我们正在思考它将如何被使用(be used)。这正是我们在 OpenAI 内部正在改变的一种工作方式。所以我认为,这就是我看待这件事的角度。我们即将迎来令人惊叹的升级版模型。就像这一整年,我审视着路线图。未来所能实现的成就令人备受鼓舞。目前我们真正的重点在于提升最后一公里的易用性。
Alex: 自 2020 年起,OpenAI 一直是无可争议的领导者。显而易见,现在的竞争非常激烈。就像你刚才用的词,我们被追赶上了。公司内部的氛围是否有所不同?比如不再是那个在 ChatGPT 这类产品上遥遥领先的领跑者,而是陷入了一场真正的博弈?你可以从有关公司内部情况的报道中看出来,事实上,那些副业项目已经不复存在了,相关的会议也已经停止。OpenAI 不再有任何支线任务,所有精力都集中在核心目标上。这里的环境或氛围发生了怎样的变化?
Greg Brockman: 对我个人而言,在 OpenAI 最令人恐惧的时刻其实是在我们发布 ChatGPT 之后。我记得当时在参加节日派对,感受到了那一周特有的氛围。我从未有过那种感觉。当时我的想法是,不,我们一直是处于劣势的挑战者,不是吗?在这个领域的竞争对手都是些老牌公司,他们拥有更多的资本、更多的人力资源、数据以及各种资源。为什么 OpenAI 竟然能够参与竞争?
在某种程度上,答案仅仅是因为我们从不感到自满,我们总是觉得自己是挑战者。对我来说,这实际上是一件非常健康的事情。我们开始在市场上看到这一点,看到其他竞争对手涌现并表现出色。在我看来,你永远不能仅仅盯着你的竞争对手。如果你只关注他们现在所处的位置,那么当你赶到那里时,他们早已移步他处。我认为反方向的情况也是如此,即许多人总是聚焦于我们当下的位置,而这恰好给了我们移动的空间。
我认为这几乎为我们提供了某种一致性,实现了公司的统一。我曾描述过我们是如何思考的。研究与部署是两件独立的事。而现在,我们真正想要将它们整合在一起。对我来说,这真是一件美妙的事情。因此,我想说我们所处的这个世界,让我从未感到我们处于那种外界评价的极端,你永远没有别人说的那么好。你也永远没有别人说的那么差。我认为一切都非常稳定。关于模型生产的核心,我对我们的路线图以及我们所做的研究投入感到极其、极其自信。我认为在产品层面,我们已经做到了。我们汇聚了巨大的能量,正全力将此呈现给世界。
Alex: 你之前已经几次暗示过,你们有一些优秀模型即将推出。什么是 SPUD?有消息称你们已经完成了 SPUD 的预训练,而且 OpenAI 首席执行官 Sam Altman 曾告诉员工,预计在几周内会有一个非常强大的模型面世。这是几周前的事了。团队认为它确实能加速经济发展,事情的发展速度比我们许多人预期的要快。那么 SPUD 是什么?
Greg Brockman: 它是一个优秀的模型。
但我认为重点并不在于某一个特定的模型。我们的开发流程是这样的:首先进行预训练(pre-training),从而产出一个新的基座模型,作为我们后续进行改进的基础。这始终是一项耗费公司众多人力的大工程,而这正是我过去 18 个月中投入大部分精力的地方,我主要专注于我们的 GPU 基础设施,以及支持那些负责所有训练框架的团队,以便在大规模运行中实现扩展。
随后是强化学习(reinforcement learning)流程。通过这一过程,你获取了这个已经学习了大量世界知识的 AI,并让它应用这些知识。然后我们进行后训练(post-training)流程,确切地说,就是告诉它:好的,现在你知道如何解决问题了。你在所有这些不同的语境下进行练习。最后是关于行为表现和易用性的最后一公里优化。
所以我将 SPUD 视为一个新的基座、一个新的预训练模型,我认为我们大约两年的研究成果都体现在了这个模型中。这将会非常令人兴奋。我认为世界体验它的方式,就是其能力的全面提升。对我而言,这从来都不只是关于某一个版本,因为一旦我们发布了这个版本,它也只是我们后续产品的一个早期雏形。我们将会在改进流程的每一个步骤中投入更多精力。所以我认为我们的发展方向是,我们拥有了一个不断加速的进步引擎,而当前这一版仅仅是漫长路途中的一小步。
Alex: 那么,你认为它能够做到哪些当今模型无法完成的事情呢?
Greg Brockman: 我认为它将能够解决更加困难的问题。我认为它会变得更加细腻。它会更好地理解指令。它会更好地理解语境。人们常说有一种被称为“大模型气息”(big model smell)的东西,就好像当这些模型出现某种特质时。它们实际上变得更加聪明、能力更强,能够更顺从地配合你的需求,你完全能感受到这一点,当你提出一个问题而 AI 没有完全理解时,总是让人感到非常失望,我们不得不去解释,你会觉得:你真的应该能够理解这一点才对。
所以我认为在某种程度上,虽然会有质的变化,但更重要的是会有大量的量变,而在质的方面,会出现一些你以前会感到沮丧的新情况。你以前从不用 AI 来处理这些。而现在你使用它时几乎不需要动脑筋。我认为这就是我们将会在各个领域看到的情况。我非常期待看到它如何提高上限,我们已经看到了这些物理学应用以及类似的事情。我认为我们将能够解决更多开放式的问题,以及应对更长的时间跨度。同时也非常期待看到它如何提高基准水平,无论你想做什么,它都能为你提供巨大的帮助。
Alex: 对于普通用户来说,真正感受到这种变化可能有些困难。比如在 GPT-4o 发布前有过很多预热讨论,但发布之后,公众最初的反应其实是有所失望的。但后来我认为人们意识到,它在处理某些任务时确实非常出色。对于接下来的一系列模型,你认为它们会被特定职业的人群切身感受到,还是你认为这对每个人来说都将是广泛且明显的提升?
Greg Brockman: 我认为情况会类似,发布之时,会有一些人尝试后感叹:这与我以往见过的任何东西都有着天壤之别。但也会有一些应用场景,我们本身并不一定受限于智能水平。所以,如果你拥有一个更智能的模型,或许你在那些场景中并不会有太大的感觉。
但我认为随着时间推移,你一定会感受到变化,因为发生根本性转变的是你对系统的依赖程度。比如,回想一下我们所有人与 AI 互动的方式,我们对它能做什么都有某种心理模型。这种思维模式的转变其实相当缓慢,随着你经验的积累,它会为你产生某种神奇的效果。你会惊叹道,哇,原来它能做到这些。我从未想象过这一点。
例如,我们在获取健康信息的应用场景中就看到了这一点,我们看到有些人,比如我的一位朋友,他使用 ChatGPT 来了解针对其癌症的不同治疗方案。当时医生告知他已是绝症,没有其他治疗手段了。他通过 ChatGPT 研究了许多不同的思路,并以此获得了治疗。在这样的场景下,你必须具备某些条件。你需要相信 AI 在该应用场景中是有所助益的,这样你才会真正投入精力去从机器中获取所需的信息。我认为我们将看到,对于任何此类应用,AI 能为你提供帮助这一点将变得更加显而易见。所以我认为,这既是因为技术在不断进步,也是因为我们对技术的认知正在发生转变并逐渐跟上这一步伐。
Alex: 你们在 OpenAI 内部也会更多地依赖它。你们目前正在研发一款自动化 AI 研究员,预计将于今年秋季发布。那是什么?
Greg Brockman: 目前的趋势是,我们正处于这项技术起飞的早期阶段。起飞是指 AI 正在以指数级速度变得越来越强大。部分原因在于我们可以利用 AI 来完善 AI 本身。因此,我们的开发进程得以加速。但同时,我认为当我提到起飞时,它也关乎现实世界的影响。从某种程度上说,每一项技术都是一条 S 曲线;如果拉远视角来看,有些 S 曲线最终会演变成指数增长。
我认为这正是我们目前所面对的情况。因此,技术的发展正以越来越快的速度推进,它就像一台正在加速的引擎。但在当今世界,由于芯片的存在,这一切也获得了全方位的助力。开发者们正在为他们的项目争取到更多的资源。现在出现了一个围绕这些技术构建的经济体系,人们正试图探索如何将其应用于各种场景。所有这些能量都在不断汇聚,使 AI 进入了一个起飞阶段,从一种辅助性的点缀转变为推动经济增长的核心驱动力。我认为这不仅仅关乎我们在这些围墙之内所做的事情。而是关乎整个世界、整个经济体如何齐心协力去共同推进这项技术。以及共同发掘它的实用价值。
Alex: 那么研究员具体会做些什么呢?
Greg Brockman: 研究员将会迎来一个时刻,即我们正在构建的 AI,目前它承担了更大比例的任务,我们应该能够让它自主运行。我认为这其中包含了很多深思熟虑,它并不一定意味着我们只需让它独立运行,然后过会儿再回来看看它是否完成了好的成果。我认为我们会在管理它方面投入大量精力,就像现在,如果你有一名初级研究员。如果你让他们独自工作太久,他们很可能会走上一条没什么用的道路。但如果你有一位资深研究员或是有远见的人,他们甚至不一定需要具备具体的操作技能,他们能够提供反馈,审查实习生制作的图表,并根据我希望你达成目标的愿景提供指导。所以我将其视为一个我们将要构建的系统,它将极大加速我们生产模型的能力,推动新的研究成果,使这些模型在现实世界中变得更有用、更易用,并以不断提升的速度实现这些目标。
Alex: 抱歉。它到底要做什么?你要对它说“去寻找 AGI”,然后它就会尝试去创造吗?
Greg Brockman: 我认为我对此的思考方式大致就是这样。
在实际层面上,我认为可以将其视为将我们研究科学家所做的工作实现全流程的芯片化。
Alex: 另一种思考飞跃(takeoff)的方式是,人工智能的进步从渐进式转变为积累动能,随后演变成一种不可阻挡的态势,最终迈向超越人类智慧的水平。你是否担心,正如在该领域存在向好发展的可能性一样,这一过程也存在出错的可能?
Greg Brockman: 我认为答案绝对是肯定的。我认为要获得这项技术的益处,同时也必须真正审视其所带来的风险。如果你观察我们从技术角度处理技术研发的方式,就会发现我们在安全与保障方面投入了大量资源。一个很好的例子就是 prompt injections,如果你拥有一个非常聪明、能力极强且接入了大量工具的 AI,你必须确保它不会被通过奇怪指令进行恶意操纵的人所破坏。这也是我们投入了相当多精力去解决的问题。而且我认为我们已经取得了非常了不起的成果,并拥有一支极其出色的团队致力于此。
思考其中一些可以与人类进行类比的问题是很有趣的。比如人类也容易受到钓鱼攻击,容易以各种方式被欺骗,也容易无法真正理解他们所从事工作的全部背景。我们将这些类比引入我们的开发流程,并以此为思考依据。每当我们发布模型或开发模型时,我们如何确保它能够与人类意图对齐,并真正发挥辅助作用?这是我们非常关心的事情。我认为关于世界、经济以及一切如何改变,存在着更大的问题。如何让所有人从这项技术中受益?这些问题并非纯粹的技术问题,也不是 OpenAI 单凭一己之力就能解决的。但确实,我不仅思考如何推动技术进步,也深刻思考如何确保我们能实现其所蕴含的积极影响。
Alex: 然而,令人担忧的是,这正是一场竞赛。而在 OpenAI 总部围墙内所做的一切,也正在被效仿。被许多开源领域的参与者所效仿,他们在安全方面的约束、壁垒和保护措施要少得多。我想你曾经说过,创造力需要人们在许多方面做到正确,而只要一个人心怀恶意,就足以造成破坏。至少对我来说,担忧正源于此,当这一切——显然这是一场竞赛,而且发展速度极快时。你的许多同行都曾表示,如果每个人都同意停止,那么就会停止,但目前看来,这丝毫没有减速的迹象。所以,从根本上说,收益值得冒险吗?
Greg Brockman: 我认为收益是值得冒险的,但我认为从某种意义上说,这是一个过于笼统的答案。我对这一问题的思考方式是,从 OpenAI 成立之初,我们就一直在问:一个伟大的未来是什么样子的?这项技术究竟如何才能真正成为造福每个人的事物?你可以认为这几乎存在两个不同的角度。其一是中心化观点,认为确保这项技术安全的途径是由单一主体进行构建。这样一来,你就没有任何压力了,你可以真正潜心思考如何将其做对,并且等它准备就绪后再考虑如何向所有人推广,诸如此类。
从某些方面来看,这确实是一个难以接受的苦果。我认为有很多特性能以不同的方式去应对,我们将其称为韧性。将其视为一个开放系统,其中有许多参与者在开发这项技术,但这不仅关乎技术本身,更关乎构建能够确保该技术真正良好运作的社会基础设施。如果你思考电力是如何发展的,就会发现那是许多人共同生产的结果,尽管它确实存在危险和风险。
但我们也通过多种不同的方式构建了安全基础设施,例如围绕电力的安全标准、利用电力的不同方式,以及关于如何进行扩展;当达到如此大规模的应用时,会有相应的法规确保许多人能够以民主化的方式使用它。还有检查员。就像整个系统都是围绕该技术的需求及该特定技术的特性而建立的一样。
我认为我们确实在 AI 领域看到的一点是,我们需要就此展开广泛的对话。如果这项技术即将到来并改变每个人的生活,我们需要让大众意识到这一点,人们需要参与其中。这不能是由某个单一的中心化群体在秘密中完成的事情。因此,对我而言,这是这项技术应如何发展的核心问题,我们深信围绕该技术的发展应当形成一个具有韧性的生态系统。
Alex: 你刚才提到我们正处于起飞阶段,处于起飞过程的中间,我想全人类都在经历这一切。NVIDIA 的首席执行官 Jensen Huang 最近表示,他认为 AGI 已经实现。你同意吗?
Greg Brockman: 我认为不同的人对 AGI 有不同的定义,我也认为有很多人会说我们现在所拥有的就是 AGI。我认为你可以对此进行辩论,但有趣的地方可能在于,AGI 和我们现在拥有的技术一样,是非常参差不齐的。例如,它在许多任务上绝对是超人类的。在编写代码之类的事情上,AI 完全可以胜任,它确实消除了许多创作过程中的阻碍。但仍有一些人类可以完成的基础任务,我们的 AI 还在艰难应对。所以,这几乎是在问界限究竟该划在哪里?
目前这更像是一种直觉和感官体验,而非严谨的科学。所以我认为,对于我个人而言,我们确实正在经历那个时刻。如果你在 5 年前向我展示我们今天所拥有的系统,我会说,噢,没错,这就是我们当时讨论的东西。但它只是不一样。它与我们曾经设想的任何事物都截然不同。因此我认为我们需要适当地调整我们的心智模型。
Alex: 所以你还没有达到那个阶段。
Greg Brockman: 我想我会说我已经基本完成了百分之 70、80 左右。所以我认为我们已经非常接近了。我认为非常明确的一点是,在接下来的几年里,我们将拥有某种形式的 AI,尽管它在表现上仍然参差不齐,但对于任何使用电脑的智力任务而言, AI 处理任务的基准能力将几乎无所不能。我认为,现在我必须给出一个稍显不确定的答案,因为这几乎类似于一种测不准原理,你可以对此进行探讨。就我个人的定义而言,我认为我们已经快要达到了,或许再进一步,我们就绝对会实现目标。
Alex: 好的,我们必须进入休息时间了,但在休息期间,我想告知在家里观看节目的观众,你和我将于 6 月 18 日在旧金山的 SF Jazz 再次进行对话,如果你想加入那场对话,我会在节目笔记中放入相关信息,我真心希望你能报名参加。好的。我们稍后回来。欢迎回到 Big Technology Podcast,今天我们邀请到了 OpenAI 联合创始人兼总裁 Greg Brockman。Greg,请问 2025 年 12 月到底发生了什么?因为那似乎是一个转折点,关于让机器连续数小时不间断地进行编程这一构想,从理论层面转变为每个人都认为:我想我可以信任它,让它持续运行一段时间。所以,究竟发生了什么?
Greg Brockman: 新型模型竞赛确实让 AI 完成任务的能力从 20% 左右提升到了 80% 左右。这是一个巨大的转变,因为它从一种“没错,这是个不错的功能”的状态,转变为了你必须围绕这些 AI 彻底改造工作流程的状态。对我个人而言,我也有过这种时刻:我有一个用了多年的测试提示词,即“为我建立一个网站”。我最初是在学习编程时自己构建了这个网站,花了我好几个月的时间。在 2025 年期间,这通常需要大约 4 个小时,还需要多次不同的提示词才能完成。到了 12 月,只需一次指令,我只问了 AI 一次,它就生成了网站,而且完成得非常出色。
那么,这些模型是如何实现这一跨越的呢?其实,很大程度上是因为基础模型变得更好了。关于 OpenAI 的一点是,我们一直在致力于改进预训练技术,这已经持续了相当长一段时间。在那一刻,我们得以一窥今年余下时间里将会出现什么样的成果。但这不仅仅是因为某单一因素。而是因为我们不断在创新的每一个维度上推进。这些模型最有趣的地方在于,从某些方面看,你会获得跨越式发展,而从另一些方面看,这又是一个持续演进的过程。它并非从 0% 直接跳到 80%,而是从 20% 提升到 80%,所以从某种意义上说,它就是变得越来越好。
我认为我们确实看到了每一次小版本更新都带来了持续的改进,例如在 5-2 到 5-3 之间,我的一位密切合作的工程师发现,原本它无法完成他所从事的底层硬核系统工程,到后来它能够完美地实现这一任务。他提供给它一份设计文档。它真的将其实现了,加入了指标、可观测性,运行了性能分析器,并将其优化到了他所期望达到的精准程度。因此我认为,看待这个问题的思维方式是:它几乎是一种缓慢地、缓慢地、缓慢地、然后突然之间全面爆发的过程。但这都预示着目前正在发挥作用的技术,肯定在一年内,有时甚至更快,将变得极其可靠。
Alex: 这让你感到惊讶,因为我不久前在采访中听到你谈到 Codex,也就是那个自动编码器,它只是为软件开发人员准备的。而在这次对话的早些时候,你说实际上每个人都可以使用这些东西。
Greg Brockman: 是的。
Alex: 是什么原因让你改变了观点?
Greg Brockman: 我想我之前一直专注于 Codex,因为它里面有代码,对吧,所以认为它确实是为程序员准备的。而且考虑到 OpenAI 内部的人,因为我们很多人都是软件工程师,是在为自己构建工具,所以那样想是很自然的。但随着这项技术的不断进步,我们开始意识到,我们所创造的底层技术其实根本不在于代码。它主要在于解决问题。它主要在于能够管理上下文、驾驭各种工具,并思考 AI 应该如何整合并开展工作。
这就是为什么即便对于代码而言,突然间每个人都可以使用它了,因为你可以管理一个将去执行任务的系统。如果你有一个愿景,有想要实现的目标,你就可以描述你的意图。AI 可以执行指令,并将其完成。但随后它也开始自主行动。为什么我只专注于编程?比如 Excel 表格、演示文稿中涉及大量纯粹机械性的技能。如果 AI 拥有了背景信息,它现在就具备了能够出色完成这些任务所需的原始智能。因此,如果我们能提高其易用性,Codex 就不会仅仅局限于程序员,而是能惠及所有人。
Alex: 在看到这些显著改进之后不久,硅谷出现了另一种现象,即 OpenClaude,或者说是更广泛的科技社区,人们开始以你所说的那种方式信任它,比如允许 AI bot 访问他们的桌面,或者配置一台 Mac Mini 并授予其访问邮件、日历和文件的权限,然后任由它来管理他们的生活。随后 OpenAI 将 OpenClaude 的创始人招至麾下。所以,你刚才多谈了一些关于 AI 如何在某种程度上帮助你管理生活的内容。这就是将 OpenClaude 团队纳入麾下的愿景吗?
Greg Brockman: 我认为这项技术的核心在于弄清楚它如何产生效用,以及人们希望如何使用它。Agent 的愿景是什么?它将如何融入人们的生活?这是一个难题。我在这项技术跨越多个世代的过程中观察到一点:那些真正深入钻研、充满好奇心和远见卓识的人,拥有一种真正的能力。在当前这一新兴经济中,这是一种正在显现且极具价值的技能。而 OpenClaude 的创始人 Peter,我认为他就是一位拥有非凡远见和创造力的人。所以,在某种程度上这关乎具体技术,但在某种程度上又完全与之无关。真正重要的是,我们如何运用这些能力,并理清它们该如何融入人们的生活。因此,作为一名技术专家,这令人非常兴奋;但作为一名致力于为人们带来实用价值的人,这也是我们正在全力投入并加大投资的领域。
Alex: 你最近关于这个话题有一个很有意思的观点,谈到了让这些自主 AI agents 为你工作。你说过,当你这样做时,你就成为了一个拥有成千上万个 agents 的舰队的 CEO,它们在完成你的目标、你的愿景,而你并不需要深陷在具体如何解决不同问题的细节中。在某种程度上,这种新的工作方式可能会让你觉得对问题失去了掌控感。它真的有那么好吗?
Greg Brockman: 我认为这是一把双刃剑。所以我认为我们需要做的是认可这些工具所能带来的优势,并减轻其劣势。因此,给予人们杠杆效应和自主权,意味着如果你有一个愿景,或者想要实现的目标,你可以拥有一支能够为你去执行的 agents 舰队。但如果你从世界运作的方式去思考,终归还是有一个责任方,如果你试图建立一个网站,而你的 agent 把事情搞砸了,导致你的用户受到了影响,这并不是 agent 的错。这是你的错。因此,你需要对此保持关注。我认为,要正确使用这些工具,人们必须意识到人类的自主权和人类的问责制是系统中的核心部分,即人类如何使用 AI。这一点至关重要。所以我认为重要的一点是,作为这些智能体(agents)的用户——我们在 OpenAI 内部也是这样做的——你不能推卸责任。你不能仅仅说,啊,AI 会处理好一切。
Alex: 当然,但你提到过,感觉自己正在失去对问题本身的把控。那与问责机制是两码事。
Greg Brockman: 在我看来,它们实际上是紧密相连的。因为关键在于,如果你是一位 CEO,却离具体的细节太远,如果你在经营这家公司,在领导这个团队,却失去了对核心脉搏的感知。那是不可能带来出色成果的。所以我当时想表达的观点并不是说,人类无需了解正在发生的事情是一件值得追求的好事。有些细节确实是因为你可以信赖他人而无需过问,比如当你雇佣一个总承包商来建房子时,其中有许多细节你可能不必操心,因为你可以相信这些都会被妥善处理。
但归根结底,如果有细节出现了差错,你就应该去关注它。你应该保持知情。因此,我认为这是一个重要的细微差别:你不能盲目地宣称自己可以接受失去对局势的把控,我们需要积极主动地去深入了解,以真正掌握其优势与劣势。当你从某些细节——那些底层的机械性事务——中抽离出来时,应该是因为你已经与系统建立了信任,确信它能处理好这些工作。
Alex: 关于模型的问题,我们最后再谈一个:你之前稍微提到了模型所经历的演进过程——预训练、微调以及强化学习,这些让模型更有能力分步骤解决问题、接入互联网并执行任务。现在我们正处于模型通过这一过程学会了使用工具的阶段,如果我有理解错误请纠正。那么这一演进过程的下一步是什么呢?
Greg Brockman: 我认为,我们所处的这个世界,其特点正是机器的能力与深度在不断提升。
这在一定程度上是因为我们已经具备了工具使用能力,但现在我们还需要真正构建出非常出色的工具。想象一下类似计算机使用(computer use)的功能,即 AI 能够真正操作桌面环境。届时它将能够真正胜任你能完成的任何任务。但我们也必须为机器做些基础建设,去思考企业级的身份验证(credentialing)如何运作,审计追踪(audit trails)和可观测性(observability)又该如何实现?我们还需要构建大量的技术,以追赶核心模型的能力水平。我认为总体的发展方向包括实现诸如卓越的语音交互界面等功能。这样你就可以像现在我们谈话一样,自然地与你的计算机交流。它能听懂你的话。它能完成你的需求。它能提供有价值的建议。它能够呈现我一直在处理的这件事。
我遇到了一个问题。你早上醒来。它会显示,这是你昨晚代理所取得进展的每日报告。也许它正在为你经营一家企业,我认为这将是这项技术的一个巨大应用场景。创业的平民化绝对即将来临。我会说,这里有这些问题。有位客户很不满。他们想与真人对话。比如,你应该去和他们谈谈。这些事情都会发生。我认为,提高人类所能解决挑战的雄心上限,也是这项技术的下一步。我们目前正处在这一趋势的最前沿。
我非常期待看到这一切,如果你还没意识到的话。还记得 AlphaGo 的第 37 手棋吗?那一手棋是任何人类都无法想到的。它极具创造性,并改变了人类对这款游戏的理解。这种情况将发生在每一个领域。它会发生在科学、数学、物理学和化学领域。它会发生在材料科学领域。它会发生在生物学领域。这将在医疗保健和药物研发领域发生。但也可能发生在文学、诗歌以及其他诸多领域。它们将以我们目前无法想象的方式解锁人类的创造性理解与构思能力。
Alex: 既然你认为这些模型已经如此强大,为什么你觉得这种情况尚未发生呢?
Greg Brockman: 我认为模型的能力与人们使用它们的方式之间存在一定的落差。也就是增强效应。没错,这几乎取决于我们对这些模型内部能力的理解。我认为这一点仍在不断显现。所以我认为,即使在没有进一步技术突破的情况下,依然会发生巨大的转变。由算力和 AI 驱动经济转型依然会成为现实。但我认为还有一点,我们已经非常擅长在那些可以被衡量的任务上训练模型。因此我们最初从数学题和编程题入手,因为这些任务拥有完美的验证机制。而我们在推动 AI 解决更开放性问题方面所取得的许多进展,其实都是在不断拓展可创造事物的领域。
AI 本身确实可以为此提供助力。如果 AI 足够智能且具备理解力,你只需给它一套评估任务执行好坏的准则即可。当然,对于创意写作之类的内容,比如判断这是否是一首好诗,这在评分上要困难得多。因此,我们在训练 AI 以及让它去体验和尝试这些事物方面的能力一直比较有限。但这一切正在发生改变,对此我们有着明确的洞察。
Alex: 这很有趣。回顾这一点,Peter Thiel 曾提到过——我很确定他是这么说的——如果你是擅长数学的人,相较于擅长文字的人,你在这些模型的发展中所面临的困境可能更为严峻。而你当年曾经是 Math Club 的成员。你对此不感到担忧吗?
Greg Brockman: 我认为比起我们所获得的,我们更容易看到所失去的,因为我们对此有着深刻的理解,即我过去是这样处理事情的。我过去常常参加这种数学竞赛。现在 AI 可以完成这些数学竞赛了。但其实核心从来都不是数学竞赛本身。对吧,不是吗?那并不是真正驱动人类发展的核心所在。如果你思考我们现在的工作方式——即被框住,被困在某个狭窄的空间里——这在 100 年前是不会发生的。那是不自然的。那并非这个数字世界。
我们都被卷入其中,但这并不是人类存在的真正意义。人类的存在在于身处此地、活在当下,并与他人建立连接。我认为我们将看到的是,AI 将释放大量时间来增加人与人之间的联系,建立更多的人际纽带,对此我感到非常兴奋。
Alex: 那么,随着我们转向这些更具代理性质(agentic)的用例,业界一直在讨论是否还需要进行更大规模的训练。毕竟,如果你能让模型达到足够好的水平,就可以让它投放到现实世界中,从而在非预训练阶段获得大部分的性能提升,而预训练正是这些大型数据中心所必需的。你负责这方面的扩展工作,引领这一进程。你对这一观点有何看法?]
Greg Brockman:我认为它忽略了技术发展中非常重要的一点,因为事实证明,模型生产流水线中的每一个环节都会产生乘数效应。因此,你需要改进所有这些环节。我们所看到的是,当我们改进预训练时,这使得所有其他后续步骤变得容易得多,这合乎逻辑,因为模型能够学得更快。这是一个模型,因为它本身就已经具备了在尝试不同想法并从自身错误中学习时更强的起始能力,这一过程就是更快。它需要犯更少的错误。
因此我认为一个重大的转变在于,从单纯考虑仅对这个大脑系统进行训练并不断扩大其规模,转变为同样注重对想法的实践尝试。这同样关乎于理解人们如何在现实世界中使用它,并将这些反馈回馈到你的训练中,但这并没有削弱持续进行相关研究的价值和重要性。
我认为另一个已经发生转变的地方在于,我们过去确实只关注原始的预训练能力,而没有过多考虑推理能力。在过去的 24 个月中,意识到在模型本身具备所有优良特性与实际应用之间存在平衡,这已经是一个巨大的变化。但随后你确实需要它具备可推理的能力,因为你需要进行强化学习。你需要将其推向世界。这意味着你不一定会追求极致的规模,因为你同样必须考虑到后续会有各种下游应用,你真正想要的是在智能与成本之间实现最优平衡,并将这两者协同优化。
Alex Kantrowitz:如果重心大多转向了推理,你是否仍然需要 Nvidia GPU?
Greg Brockman:我们当然有。为什么?原因有很多。但其中一个原因是,即使推理与训练的比例在发生变化,除了将算力集中在单一问题上之外,别无他法来实现大规模训练。所以我认为将会发生的情况是,部署规模会有相当大的增长,但有时你会进行特定规模的预训练,而你确实希望在其中集中大量的算力。我也认为 Nvidia 团队非常了不起,他们做了非常、非常出色的工作。所以,我们与他们有着非常紧密的合作。
Alex Kantrowitz:难道不会出现人们认为我们已经预训练得足够多、模型已经足够聪明的时候吗?
Greg Brockman:我认为这有点像说,一旦人类解决了面前的所有问题,那么或许我们就可以那样说了。没错。但我认为我们想要实现的目标上限很高,就像我认为过去 50 年左右我们可能在某些方面退缩了,你想想看,即使是那些看起来非常明确的问题,比如我们能否为所有人提供医疗保健——不仅仅是针对人们生病时的情况,而是真正具有预防性的医疗保健,真正从生活方式入手,帮助人们在潜在疾病发生前及早发现。比如说,我认为这是一个我们可以通过更智能的模型实际解决的问题。并且很可能在某个程度上,你是可以彻底解决该问题的。然后你会问,那我还需要一个聪明两倍的模型吗?但还有其他问题会对此提出要求。
Alex Kantrowitz:我们来谈谈建设这些数据中心的算计吧。它在今年早些时候筹集了 1100 亿美元。这背后的算计是什么?这些钱会直接投入到数据中心吗?你是如何考虑如何将这些资金回馈给投资者的?谈谈这些计算吧。
Greg Brockman:我认为这很简单,因为我们面前所见的巨额开支就是算力。但你可以将算力视为一个营收中心,而非成本中心。试着把它想象成雇佣销售人员。你想雇佣多少销售人员?只要你能卖出产品,只要你有可扩展的方式来销售产品,那么拥有的销售人员越多,你获得的营收就越多。
我认为我们所处的这个世界,现实情况是我们不断发现算力的构建速度无法满足需求。我对此有非常具体的体会,目前,我们必须在发布什么产品以及将算力分配到何处这些问题上做出非常痛苦的决策,我认为整个经济领域都将更广泛地经历这一点。随着我们转向这种 AI 驱动的经济,问题将变成:什么问题将会获得那种海量的算力资源?你们如何实现规模化,从而让每个人都能拥有一个为其服务的个人智能体?如何让所有人都能使用像 Codex 这类系统?毕竟世界上没有足够的算力来支撑这一点。所以我们正试图提前解决这个问题。
Alex Kantrowitz:但这确实是一个全新的类别,所以你们是在怀揣十足的信心去做这件事。从资金规模来看,世上从未有过投入到此类项目中的资金能与之相比。当你在打造一个新品类时,如何确保它一定能成功?
Greg Brockman:我认为这其中包含多个要素。首先,目前已经有了历史先例。从我们发布 ChatGPT 的那一刻起,我记得曾与团队进行过同样的对话,他们问:我们到底应该购买多少算力?我说过,全部都要。我说,不,不,不,我是认真的,我们到底应该购买多少算力?我说,无论我们尝试构建多少算力,我知道我们都无法满足需求。事实确实如此,自那时以来的每一年,情况一直都是这样。挑战在于,这些算力采购必须在实际交付前 18 个月,有时甚至 24 个月或更长时间锁定,这意味着你确实需要进行前瞻性预测。
我认为我们正在迈向的世界是,迄今为止我们的大部分收入来自消费者订阅,这一点将始终非常重要。我们也有其他正在涌现的收入来源。但目前显而易见正在涌现的机会是知识型工作。我们非常具体地看到,每一家企业都在意识到这项技术确实有效,为了保持竞争力,他们需要采用它。你可以看到所有这些软件工程师使用它所展现出的内在活力。随后,我们开始看到人们在企业内部将它应用于各类知识型工作。你们所看到的这个行业的付费意愿和收入增长是非常明显的,这一切显然正在发生,只需将其推演至未来即可。
我们所看到的一点是外界或许无法察觉的,那就是这些模型未来改进的清晰路径。将所有这些结合起来看,经济是一个庞大的系统,经济规模实在太大了。几乎无法理解。所有的增长,即该经济体未来增长最核心的决定性因素,将是 AI,以及你能够多好地利用 AI 和你所掌握的计算能力来驱动它。
Alex Kantrowitz:你提到目前消费者订阅是你们最大的收入来源。预测未来是否会发生反转,即企业业务将成为最大的收入来源?
Greg Brockman:我觉得,我认为企业的发展速度非常显而易见,而且不仅限于企业,因为我认为“企业”本身的定义也在发生改变。没错。所以人们确实将其用于生产力知识工作等这类事情。我认为当我们思考定价时,有一点是,如果你看看 Codex 目前的运作方式,如果你拥有 ChatGPT 的消费者订阅,你就可以使用 Codex。所以我认为,它不会像“这是这一类,那是那一类”那样界限分明。我认为它最终关乎的是,作为用户,你将拥有一个通往数字世界的门户,就像你的笔记本电脑一样。这正是收入的根本来源。
Alex Kantrowitz:Dario 提到了这一点,我想听听你的看法。有些参与者在孤注一掷(yoloing),他们把风险偏好拉得太高,我对此非常担忧。我认为他指的是你在基础设施方面的投入。你对此怎么看?
Greg Brockman:我只是不同意他的看法。我们一直深思熟虑,并且非常密切地关注着未来的趋势。而且我认为,甚至在今年,我们就能看到每一位参与者都将面临算力紧缺的困境。我认为我们在预判这一点以及预见这项技术将如何演变方面,表现得最为前瞻。据我观察,其他参与者大概在去年晚些时候才意识到这一点,并开始匆忙寻找可用的算力。但实际上,当时根本没有什么剩余算力。
所以我认为,尽管人们很容易发表类似的言论,但大家现在都意识到这项技术确实行之有效,它已经到来,而且是真实的,软件工程只是其中的第一个应用案例,我们从根本上受到可用计算能力的限制。
Alex Kantrowitz:你之前也提到过,如果他的预测出现一点偏差,公司就有可能面临破产。这对你来说也是一样的情况吗?
Greg Brockman:我认为,看吧,实际上如果我们开始担心下行风险,这里其实有更多的缓冲余地,我认为这是一个非常合理的问题。但在某种程度上,我认为这笔赌注押的并不是任何单一的公司。它实际上是关于整个行业。它本质上是在问:你是否相信这项技术能够被生产出来,并带来我们所预见的巨大价值?
再一次,我会指出一些证据,比如软件工程,如果你不是一名软件工程师,你还没有尝试过 Codex,那么这种差异的程度是显而易见的。这种程度是不同的。怎么说呢,这真的很难描述。而且我认为人们很快就会体验到这一点。就像六个月前,我认为对于我们来说,我们在内部看到了这一点,但当时的外部证据还比较少。现在,外界已经有了充分的证据。六个月之后,我想每个人都会有所感触。而且我认为我们都会感到一种痛苦,那就是虽然有非常棒的模型,却因为算力不足而无法使用。
Alex Kantrowitz:是的。但当我们回顾本节目对 2026 年的预测时,去年年底我们曾与 Ron John Roy 进行过一次对话,他当时提到 2026 年将是每个人都开始使用 AI Agent 的一年。我说,等我亲眼看到并亲自使用这些 AI Agent 时,我才会相信。所以,现在我们到了这个时刻。开始吧。你会用它来做什么?
我用它为我的同事构建内部工具,以便大家能对视频发布的排期以及缩略图的设计风格达成共识。我还在整合来自 YouTube 的数据。通过这种方式,我们基本可以根据缩略图的表现来评估视频效果,而这一切是通过一套我自己构建的软件实现的,如果是在过去,我绝不会花钱去买这样的软件。我想这也是当下这个阶段最引人注目的地方,软件正在实现大规模的应用普及。但当你使用它时,由于种种原因,会有很多东西并非为你量身打造。也许这能让我们以一种更自然的方式与软件进行交互。
Greg Brockman:我认为这就是关键所在。再说一次,我一直在思考这样一个事实:我们构建计算机的方式,实际上将我们拉入了当前的数字世界。想想看,你花了多少时间在手机上不断滚动屏幕。没错,你花费了大量时间去点击不同的按钮,试图将这个东西与那个东西连接起来。为什么呢?为什么非要那样做?
相反,AI 的意义在于让机器更贴近你,为你实现个性化,并理解你想要达成什么目标。我们所有的流行文化中都充斥着可以对话并为你处理事务的计算机。而这正开始变为现实。它开始成为你真正能够实现的事情。我认为其惊人之处在于,你必须亲自尝试才能真正理解。所以我绝对认为我们正处于一个非常特殊的时刻。
Alex Kantrowitz:是的。那么我想知道为什么。为什么 AI 在公众中如此不受欢迎?例如,YouGov 的数据显示,认为 AI 对社会产生负面影响的美国人数量是认为其产生正面影响的三倍。你认为这背后的原因是什么?你是否担心 AI 的品牌形象?
Greg Brockman:我认为我们需要向全国展示 AI 对他们而言究竟好在哪里。不仅仅是针对宏观经济、GDP 增长之类的事情,而是它如何切实地帮助他们的生活?我每天都能听到许多非常具体的故事。例如,有一个家庭,他们的孩子患有头痛及一些其他医疗问题,但被拒绝进行 MRI 检查。他们用 ChatGPT 研究了症状,意识到可以据此向保险公司提出申诉以获得 MRI 检查机会,他们确实这样做了。事实证明,孩子患有脑肿瘤,他们通过使用 ChatGPT 获取了正确的信息,从而挽救了他的生命。
这只是其中一个故事。还有许多类似的故事,人们通过使用这项技术并与技术进行实质性的交互,生活得到了深刻且显著的改善,甚至生命得到了挽救。所以我认为这个故事还没有被广泛传播。我认为这种情况正在许多人的生活中发生,但不知为何,这个故事尚未得到讲述。
我注意到的一点是,当然,现在确实有很多流行文化。源于 90 年代,源于我们所处的历史背景,人们对 AI 持非常负面的态度,担忧可能出现的问题。但当人们真正使用 AI 时,他们会发现其实用性,发现其价值。所以我认为,我非常担心我们未能成功帮助人们理解,为什么这股技术浪潮能够改善他们的生活,以及帮助促进人与人之间的联系。这是我心目中非常关注的一件事。如果你思考这里的机遇以及为何 AI 如此重要,我认为这将是未来经济和国家安全的源泉。我认为这关乎国家竞争力,而在 China 等其他国家,AI 的发展方向则截然相反。所以,我认为我们承认这一点并真正理解如何让每个人都从中受益是非常、非常重要的。
Alex Kantrowitz:但我们也处于一个政治不稳定的时期。人们对工作感到担忧。每次我和别人谈论 AI 时,他们都会问:我还能在现在的工作岗位上干多久?再考虑到数据中心,其民意调查的结果甚至比人工智能整体的情况还要糟糕。这是来自 Pew 的调查。更多的人表示,数据中心对环境、家庭能源成本以及周边居民的生活质量而言弊大于利。因此,我们正处于这样一个时刻:好工作难寻,而当人们看到数据中心进入他们的社区时,他们会认为这对环境、家庭能源和生活质量并无益处。他们错了吗?
Greg Brockman:我认为关于数据中心确实存在很多错误信息。一个很好的例子是用水量。如果你观察一下我们的 Abilene 设施,它不仅是世界上规模最大的超级计算机之一,甚至可能就是最大的,其一年的用水量仅相当于一个普通家庭的年用水量。因此,它的用水量确实微不足道,然而却存在大量关于数据中心耗水量巨大的错误信息。在电力方面也是如此,我们已做出承诺,将承担自身用电成本,绝不推高民众的能源价格。
现在整个行业都在做出类似的承诺,因为改善当地社区状况对我们而言非常重要。当我们建造数据中心时,我们确实努力深入当地社区,了解基层的实际情况,以及我们能提供怎样的帮助。这些数据中心会带来相应的税收收入。而且我认为它们还能创造就业机会。它们确实带来了很多益处。所以我认为,关键在于我们如何参与其中。我们非常严肃地对待这一责任。
Alex Kantrowitz:好的。但如果电力成本不会上涨,你就必须引入电力,这意味着可能会带来更多的污染。这难道不是一个令人担忧的问题吗?
Greg Brockman:我认为在不推高能源成本方面,情况要复杂得多。如果你审视一下当今电网的运作方式,实际上存在大量的闲置电力,即那些存在却未被利用的电力,而你需要对输电系统进行升级。再说一次,将这一负担由我们承担,而不是转嫁给费率支付者,这一点非常重要。没错。在很多地方,清洁能源实际上处于未被充分利用的状态,甚至是被浪费掉的。因此,为电网——在许多地方它已老旧且过时——提供实际的运行动力,会带来巨大的益处。
Alex Kantrowitz:非常好,这实际上对社区有着实实在在的好处,正如我们在 North Dakota 所看到的那样,因为数据中心的入驻帮助改善了所有人的公用事业设施,所以人们的电费反而降低了。最后一个关于政治的问题,你向 MAGA Inc. 捐赠了 2500 万美元,这是一个支持 Trump 的政治行动委员会,你曾就此接受过 Wired 的采访,你说过:“任何能支持这项技术造福全人类的事情,我都会去做。”如果这让你成为一个单议题选民,或者说单议题政治支持者,我想分享一个我一直以来的疑问,当谈到这个单议题阵营时,归根结底,难道一个更强大的国家不会让你的目标更容易实现吗?即使候选人并没有完全支持你在做的事情。无论如何,一个更强大的国家难道不应该成为任何政治活动的北极星吗?如果是这样的话,那么,这是否也是捐款考量的一部分?
Greg Brockman:我是这样看待这件事的。我和我妻子做出了那笔捐款。我们也向两党超级政治行动委员会(super PACs)捐过款。我认为这项技术正处于快速发展的阶段,在未来几年内,它将真正改变一切,成为经济的基石。而且它并不受欢迎。我们确实希望支持那些政治家。那些真正倾向于这项技术并积极参与其中的人。所以我认为,这项技术无疑关乎我们国家的提升。我是一个单一议题捐赠者。我觉得我能在这方面做出独特的贡献。但这实际上只是表达对这项技术的支持,这是我们作为一个国家应该积极投入的方向。
Alex Kantrowitz:你会对那些害怕 AI 的人说些什么?如果你现在有机会直接对他们说几句话,他们可能会认为这会抢走我的工作,或者污染我的社区。它改变世界的速度太快了。对于这些顾虑,你想传达什么信息?
Greg Brockman:最重要的一点是尝试这些工具,因为要真正理解它能为你做什么,只有通过亲身体验目前现有的 AI,你才能真正感同身受。我们现在从这项技术中看到了巨大的机遇、潜力和赋能作用。你刚才简要提到了现在能够构建的东西。以前从未建过网站的人现在也可以建立网站。如果你想创办一家小企业,正在考虑所有的后端处理以及如何实际管理这些事务,AI 现在就能在这方面为你提供帮助。我认为,考虑到 AI 如何在你的生活中提供帮助,比如如何改善健康、如何帮助你的亲人、如何帮你赚钱、如何帮你省钱,这些都将成为可能。我认为看到什么会发生改变,远比看到你将获得什么要容易得多。但我认为,公平地尝试去理解这两个方面,是非常值得的。
Alex Kantrowitz:顺便说一下,这恰恰是民调数据中从未被讨论的一点。那些只见过 AI 被使用却从未亲身尝试过的人,或是那些从未尝试过 AI 的人,他们的看法要负面得多。然后你会接触到资深用户,甚至是那些偶尔使用的人,他们对这项技术的评价通常都相当积极。
Greg Brockman:是的。就我个人而言,我们对这项技术已经思考了很长时间。我所看到正在我们眼前展开的一切,比我们想象中更令人惊叹、更有益处,并将产生比我们预想中积极得多的深远影响。
Alex Kantrowitz:那么最后一个问题,对于如何为未来做好准备,您有什么建议?这肯定不仅仅是学会使用这些工具那么简单。有些朋友来找他们说,我不知道我的工作或者这个世界将会发生什么。我只需要知道该怎么处理这些技术。
Greg Brockman:我认为最重要的一点是去理解这项技术。我们观察到的一点是,那些能从技术中获得最大收益的人,必须保持好奇心,真正尝试将其融入自己的工作流程,并能够克服面对空白输入框时的那种初始障碍。
面对空白输入框我该做些什么,通过这种方式,真正培养起一种主动性,即我可以成为管理者,我可以设定方向,我可以进行委派,我可以进行监督。培养这种技能非常关键,因为当我们构建这项技术时,初衷就是为了让人类帮助人类促进更多的人际连接,让人们能够花更多时间去做自己真正想做的事情。
所以问题在于,你到底想要什么?真正尝试明确这一点,并借助这项技术去实现它,将是最重要的事情。
Alex Kantrowitz:Greg,非常感谢你来到节目中。
Greg Brockman:谢谢你的邀请。









