2030年实现AGI的论据

作者 Benjamin Todd
人工智能变革性人工智能

近月来,顶尖人工智能企业的首席执行官们对技术的快速进步愈发充满信心:

  • OpenAI 首席执行官的说法,从 2024 年 11 月表示「我们过去三年的进步速度仍在继续」,到仅一个月后便宣称「我们现在确信,我们掌握了构建传统意义上 AGI 的方法」。
  • Anthropic 首席执行官于 2025 年 1 月表示:“我比以往任何时候都更有信心,我们即将获得强大的能力……在未来 2-3 年内是很可能实现的。”
  • 即便是谷歌 DeepMind 更为谨慎的首席执行官,其说法也从秋季时的“快则十年”,转变为到了2025年一月份的“我认为我们大概还需要三到五年”。

这种转变如何解释?他们是对的吗,还是这纯属炒作?我们真能在 2028 年前实现通用人工智能 (AGI) 吗?

本文将剖析近期进展的驱动力,评估其持续潜力,并阐明为何这些进展至少还能延续四年。

尤其值得注意的是,虽然2024年大型语言模型聊天机器人的进展似乎有所放缓,但一种新方法开始奏效:通过强化学习训练模型进行推理。这使它们的能力从无法回答复杂的科学推理问题,跃升至超越人类博士的水平,同时在一小时的编程任务中也达到了人类专家的表现。

若按当前发展速度推算,到2028年,我们或将迎来具备超越人类推理能力、通晓各领域专家级知识、并能自主完成为期数周项目的AI模型。此后,其进展很可能仍将继续。

这些“智能体”模型将不再是纯粹的聊天机器人,很快就可能满足许多人对通用人工智能(AGI)的定义——即在多数知识工作中能媲美人类表现的AI系统。⁠a

这意味着,尽管公司领导层可能过于乐观,但现有证据足以让我们需要严肃看待他们的立场。

我们为“AGI”划定的界线终究是主观的。更重要的是,这些模型能助力加速AI研究与芯片设计本身,解锁出大量能力更强的“AI工作者”。而充分的自动化反过来可能引发爆炸性增长,十年内实现百年科技进步——而社会对此毫无准备。

尽管听来荒诞,但这确实在许多专家认为的可能范围之内。本文旨在为你提供理解其中缘由所需的基础知识。

自2014年起我便持续撰写关于AGI的文章。彼时,AGI在五年内实现的可能性微乎其微。而今形势已截然不同——我们已能窥见其运作轮廓,以及它将由谁构建。

事实上,未来五年显得异常关键。推动AI进步的核心动力——算力和算法进步——在2030年后很难维持当前增速。这意味着我们必须在短期内实现能触发加速的AI系统,否则进展将大幅放缓。

无论如何,未来五年内将见分晓。让我们一探究竟。

核心论点

  • 四大关键因素正推动AI进步:更大的基础模型、更强的推理能力、更长的思考时间、以及面向多步骤任务的智能体脚手架。
  • 所有这些驱动力都将持续到2028年,甚至可能延续到2032年。
  • 这意味着性能将进一步大幅提升。我们尚不清楚提升幅度会有多大,但对近期基准测试趋势的外推表明,我们将拥有在编程和科学推理方面超越人类、并能自主完成为期数周项目的系统。
  • 这些系统可能足以推动人工智能、机器人技术和科学研究加速发展。
  • 另一方面,人工智能可能无法解决那些定义模糊、高度依赖上下文的长期工作难题,并始终只是一个工具(即便是一个大幅改进的工具)。
  • 提升人工智能性能需要投资与研究人力呈指数级增长。按当前速率,我们很可能在2030年前后遭遇瓶颈。这意味着到2030年前后,我们很可能要么迎来变革性人工智能,要么目睹其进展急剧放缓——这使得未来五年至关重要。

I. 近期AI进步的驱动力是什么?这一势头能否持续?

深度学习时代

2022年,Meta首席人工智能科学家、图灵奖得主杨立昆说:

“我拿起一个物体,把它放在桌子上,然后推桌子。对你来说,物体会随着桌子一起移动,这是显而易见的……我相信,世界上没有任何文本解释过这一点。即使你训练出再强大的机器……你的 GPT-5000,它也永远学不会这一点。”

当然,若将此问题输入GPT-4,它完全不知如何作答:⁠b

开个玩笑。在杨立昆发表声明后不到一年,GPT-4 是这样回答的。⁠c

专家们判断失误的例子远不止于此。

2011年之前,人工智能曾被普遍认为已经死亡。

但当20世纪七八十年代的理论洞见与海量数据及算力相结合,催生出深度学习范式时,情况便彻底改变了。

此后,我们屡屡目睹 AI系统在许多任务上,于短短数年内从完全无能跃升至超越人类的水平。

例如,在2022年,如果你让Midjourney画“一只在飞机上使用wifi的水獭”,结果如下:

Midjourney 在 2022 年尝试描绘“一只在飞机上使用 wifi 的海獭”。

两年后,你用 Veo 2 就能得到这样的效果:

2019年,GPT-2只能勉强围绕一个主题写出几个连贯的段落,而这在当时已被视为非凡的进步。

杨立昆等批评者迅速指出,GPT-2无法推理、缺乏常识、无法理解物理世界等缺陷。但其中许多局限在短短两年内便被攻克。

事实一再证明,唱衰深度学习是危险的。如今,就连杨立昆也表示,他预计AGI将在“几年内”实现。⁠d

当前系统的局限性本就不是重点。更有趣的问题是:这一切将走向何方? 是什么造就了从GPT-2到GPT-4的飞跃,我们还会见证下一次吗?

展望未来

从最宏观的层面来看,人工智能的进步主要由以下因素驱动:

  • 更强大的算力
  • 更优算法

两者都在快速进步。

具体而言,近期进展可归结为四大关键驱动力:

  1. 规模化预训练以构建具备基础智能的基础模型
  2. 运用强化学习,教会基础模型进行推理
  3. 提升测试阶段算力,延长模型对每个问题的思考时间
  4. 搭建智能体脚手架,使模型能够完成复杂任务

本节后续将阐释各方法原理并展望其发展前景。深入研读,你将掌握人工智能进步的基本原理。

第二部分将以此为基础预测未来AI发展轨迹,并阐明未来五年为何至关重要。

1. 扩展预训练以构建具有基本智能的基础模型

预训练算力

人们常以为人工智能的进步需要巨大的智力突破,但其中很大一部分更像是工程实践。只需(大量)重复相同的工作,模型便会不断优化。

从GPT-2到GPT-4的飞跃中,推动进步的最大动力,仅仅是将急剧增加的算力应用到同样的技术上——尤其是在“预训练”环节。

现代人工智能通过人工神经网络运作,这种网络由数十亿个相互关联、组织成层的参数构成。在预训练(这个名称有误导性,仅指第一阶段的训练)期间,会发生以下情况:

  1. 数据被输入网络(例如一张猫的图片)。
  2. 参数值将该数据转换为预测输出(如描述:“这是一只猫”)。
  3. 这些输出的准确性将根据参考数据进行评分。
  4. 模型参数会得到调整,以期提高准确性。
  5. 这一过程将针对数万亿条数据反复进行。

该方法已被用于训练各类人工智能,但在预测语言时效果最为显著。数据是互联网上的文本,而大语言模型通过预测文本中的缺失内容进行训练。

更强的训练算力意味着可使用更多参数,使模型能学习数据中更复杂、更抽象的模式,同时也意味着能使用更多数据。

自深度学习时代开启以来,训练AI模型所需的算力正以惊人速度增长——年增长率超过4倍。

知名 AI 模型的训练算力(FLOP)随时间的增长

这主要得益于投入更多资金和采用更高效的芯片。⁠e

历史上,每当训练算力提升10倍,多项任务和基准测试的性能便会稳步增长。

例如,随着训练算力增长千倍,AI模型在解答各类问题上的能力持续提升——从常识推理到理解社交情境和物理现象。这在“BIG-Bench Hard”基准测试中得到验证,该测试专门精选了挑战大语言模型的多样化问题:

大语言模型在高难度基准测试(BIG-Bench Hard)中的表现,随训练算力提升1000倍而改善。

同理,OpenAI曾开发出一个能解决简单问题的编程模型,随后投入了10万倍的算力来训练其升级版本。随着算力的增长,模型能正确解答的问题也越来越难。⁠f

(这些测试题未包含在原始训练数据中,所以这并非仅仅是对已记忆问题进行更好的搜索。)

这种训练算力和性能之间的关系被称为“规模化定律”。⁠g

关于这些定律的论文早在2020年就已发表。对关注该领域的研究者而言,GPT-4并非意外——它只是趋势的延续。

算法效率

训练算力不仅持续增长,研究人员还发现了更高效的算力利用方式。

每两年,在各种模型上达到相同性能所需的算力,就会缩减至原来的十分之一。

每两年,AI 模型在图像识别上达到同样准确率所需的算力就会减少到十分之一(基于 ImageNet 基准)。

这些进步通常也降低了模型运行成本。DeepSeek-V3虽被誉为革命性效率突破,但其实际表现符合行业趋势:作为GPT-4发布两年后的产品,其效率提升约达10倍。⁠h

算法效率意味着:不仅每年用于训练的算力增加到四倍,而且这些算力的效用也提升到三倍。两者相乘,使年度“有效”算力增长为 12 倍。

这意味着,用于在三个月内训练 GPT-4 的芯片,本可以将一个性能与 GPT-2 相当的模型训练大约 30 万次。⁠i

这种有效算力的提升,使我们从只能勉强拼凑几段文字的模型,跃升到 GPT-4 能做到如下这些事:

  • 进行自然语言对话——在早已被遗忘的过去,这曾被视为真正智能的标志,就像图灵测试那样。
  • 解决温诺格拉德图式——一项在 2010 年代被认为需要真正理解力的常识推理测试⁠j
  • 创作出大多数人无法与人类作品区分的艺术作品⁠k
  • 在大学入学考试中击败多数高中生
考试类型GPT-4 (2023)GPT-3.5 (2022)
统一律师资格考试第90百分位第10百分位
法学院入学考试第88百分位第40百分位
SAT第97百分位第87百分位
GRE(语文)第99百分位第63百分位
GRE(数学)第80百分位第25百分位
美国生物奥林匹克第99百分位第32百分位
AP微积分BC第51百分位第3百分位
AP化学第80百分位第34百分位
AP宏观经济学第92百分位第40百分位
AP统计学第92百分位第51百分位⁠1

预训练还能扩展到何种程度?

若当前趋势持续,到2028年左右,将出现有效算力为GPT-4的30万倍的模型。⁠l

这与从 GPT-2 到 GPT-4 的提升幅度相同,若用于预训练,该假想模型可称为“GPT-6”。⁠m

在 2024 年暂停后,企业已接近 GPT-5 规模的模型,而这些模型预计将于 2025 年发布。

但这种趋势能否持续到GPT-6?

Anthropic 首席执行官达里奥·阿莫代预测,训练 GPT-6 级别的模型将耗资约 100 亿美元。⁠n这对于谷歌、微软或 Meta 这类年利润达 500-1000 亿美元的企业来说,仍然是负担得起的。⁠o

事实上,这些公司早已在建设足以支撑此类训练的数据中心⁠p——而这还是在耗资千亿美元以上的“星门”(Stargate)项目宣布之前。

前沿 AI 模型也已创造了超过 100 亿美元的收入,⁠q且年收入一直以超过四倍的速度增长,因此仅 AI 业务的收入很快就足以支付一次 100 亿美元的训练。

我稍后将详细探讨瓶颈问题,但最可能的瓶颈在于训练数据。不过我发现的最佳分析表明数据将足够充足,可以支持到 2028 年进行 GPT-6 规模的训练。

而且,即便情况并非如此,这也不再是关键了——人工智能公司已经找到了绕过数据瓶颈的方法。

2. 用强化学习进行推理模型的后训练

人们常说“ChatGPT只是在预测下一个词”。但这从来都不完全正确。

直接从互联网预测词汇会经常产生荒诞的输出(考虑到互联网的特性,这也在意料之中)。

直到引入人类反馈强化学习(RLHF),GPT 才真正变得有用:

  1. 将“基础模型”的输出展示给人类评分者。
  2. 要求评分者判断哪些输出最有用。
  3. 模型据此调整,以产出更多类似有帮助的输出(即“强化”)。

经过RLHF训练的模型不只是“预测下一个词符”,它更是被训练来预测人类评分者认为最有帮助的内容。

可将初始LLM视为概念结构的基础。RLHF正是将该结构导向一个特定实用目的的关键。

RLHF 是“后训练”的一种形式,因其发生在预训练之后而得名(不过两者都只是训练的类型)。

还有许多其他类型的后训练增强方法,包括允许模型使用计算器或互联网等简单操作。但目前有一项方法尤为关键:利用强化学习训练模型进行推理。

其核心理念在于:不再训练模型去做人类认为有帮助的事,而是使其能正确解答问题。具体流程如下:

  1. 向模型展示一个具有可验证答案的问题,例如数学谜题。
  2. 要求它生成解决问题的推理链(“思维链”)。⁠r
  3. 若答案正确,则调整模型,使其更倾向于这种推理(“强化”)。⁠s
  4. 重复上述步骤。

此过程能训练大语言模型,构建针对逻辑问题的长的(正确的)推理链。

2023 年前,此法似乎行不通。若每步推理都不可靠,推理链便会迅速出错。若无法接近正确答案,便无法强化它。

但在 2024 年,当许多人声称 AI 的进步已经停滞时,这个新范式开始兴起。

试看 GPQA 钻石基准测试——这套科学问题设计得让该领域博士大多能解答,但非专家即便有 30 分钟的谷歌搜索时间也无法解答。其中包含如下问题:⁠t

假设我们有一个由 E(ρ)E(\rho)E(ρ) 给出的去极化通道操作。去极化状态的概率 ppp 代表噪声的强度。如果给定状态的克劳斯算符为 A0=1−3p4A_0 = \sqrt{1 - \frac{3p}{4}}A0​=1−43p​​、A1=p4XA_1 = \sqrt{\frac{p}{4}}XA1​=4p​​X、A2=p4YA_2 = \sqrt{\frac{p}{4}}YA2​=4p​​Y 和 A3=p4ZA_3 = \sqrt{\frac{p}{4}}ZA3​=4p​​Z,那么状态 E(ρ)E(\rho)E(ρ) 的正确克劳斯表示可能是什么?

A) E(ρ)=(1−p)ρ+p3XρX+p3YρY+p3ZρZE(\rho) = (1 - p)\rho + \frac{p}{3}X\rho X + \frac{p}{3}Y\rho Y + \frac{p}{3}Z\rho ZE(ρ)=(1−p)ρ+3p​XρX+3p​YρY+3p​ZρZ B) E(ρ)=(1−p)ρ+p3Xρ2X+p3Yρ2Y+p3Zρ2ZE(\rho) = (1 - p)\rho + \frac{p}{3}X\rho^2 X + \frac{p}{3}Y\rho^2 Y + \frac{p}{3}Z\rho^2 ZE(ρ)=(1−p)ρ+3p​Xρ2X+3p​Yρ2Y+3p​Zρ2Z C) E(ρ)=(1−p)ρ+p4XρX+p4YρY+p4ZρZE(\rho) = (1 - p)\rho + \frac{p}{4}X\rho X + \frac{p}{4}Y\rho Y + \frac{p}{4}Z\rho ZE(ρ)=(1−p)ρ+4p​XρX+4p​YρY+4p​ZρZ D) E(ρ)=(1−p)ρ2+p3Xρ2X+p3Yρ2Y+p3Zρ2ZE(\rho) = (1 - p)\rho^2 + \frac{p}{3}X\rho^2 X + \frac{p}{3}Y\rho^2 Y + \frac{p}{3}Z\rho^2 ZE(ρ)=(1−p)ρ2+3p​Xρ2X+3p​Yρ2Y+3p​Zρ2Z

2023年,GPT-4在此基准测试中的表现仅略优于随机猜测。它能处理高中水平科学问题的推理,却无法应对博士级别的推理。

然而在2024年10月,OpenAI基于GPT-4o基础模型运用强化学习创建了o1。⁠u

其准确率达70%——在回答这些问题时,已与各领域博士水平相当。

声称这些模型只是复述训练数据的说法已站不住脚 ——无论是答案本身,还是推导答案所需的推理链,均不存在于互联网。

AI模型在博士级科学问题上的表现随时间推移有所提升,但截至2024年10月仍未能超越人类专家水平。

多数人日常无需解答博士级科学问题,因而未察觉近期进展。他们仍将大语言模型视为基础聊天机器人。

但o1只是起点。在新范式伊始[https://x.com/polynoamial/status/1880338950839235001],取得进步可能会尤其迅速。

距o1发布仅三个月,OpenAI便公布了o3成果。这是第二个版本,命名为“o3”是因为“o2”是一家电信公司的名字。(但请别问我 OpenAI 的其他模型命名惯例)它很可能就是o1,但应用了更多的强化学习(以及另一项我稍后会解释的变化)。

o3 在 GPQA 基准测试中超越了人类专家水平:

如今,o3 及其他模型在博士级科学基准测试上的表现,已超越在各自专业领域内使用谷歌搜索的人类博士。

强化学习对于有可验证答案的问题应该最为有效,例如科学、数学和编程领域。⁠v o3在这些领域均显著优于其基础模型。

当前多数数学问题基准测试已趋于饱和——顶尖模型基本能答对所有题目。为此,Epoch AI 创建了Frontier Math——一个极端困难的数学问题基准。

其中最简单的25%问题相当于奥林匹克竞赛级别,而最困难的25%问题据菲尔兹奖得主陶哲轩描述 “极具挑战性”,通常需要该数学分支的专家才能解决。

包括GPT-o1在内的早期模型几乎无法解答这些问题。⁠w2024年12月,OpenAI宣称GPT-o3能解决其中25%。⁠x

这些成果在媒体上完全没有报道。就在 o3 成果公布的当天,《华尔街日报》刊登了这篇报道:

就在 o3 展现出解决超高难度数学题的卓越能力的同一天,《华尔街日报》却在首页报道 GPT-5 开发延迟的消息。

但这忽略了一个关键点:GPT-5 已不再必要——一个新的范式已经开启,其发展速度将远超以往。

推理模型的扩展还能走多远?

今年一月,DeepSeek 成功复现了 o1 的多项成果。其论文表明,即便只是最简单的流程版本也能奏效,这暗示着还有巨大的探索空间。

DeepSeek-R1 还会向用户完整展示其推理链,其精密程度和惊人的类人特质也由此展现:它会反思自己的答案,在出错时回溯,考虑多种假设,产生洞见等等。

问题:若 a>1a > 1a>1,则方程 a−a+x=x\sqrt{a - \sqrt{a+x}} = xa−a+x​​=x 的实数解之和等于

解答:<思考> 为求解方程 a−a+x=x\sqrt{a - \sqrt{a+x}} = xa−a+x​​=x,首先将两边平方 ⋯\cdots⋯ (a−a+x)2=x2⇒a−a+x=x2\left(\sqrt{a - \sqrt{a+x}}\right)^2 = x^2 \Rightarrow a - \sqrt{a+x} = x^2(a−a+x​​)2=x2⇒a−a+x​=x2。 重新排列以分离内部平方根项:

(a−x2)2=a+x⇒a2−2ax2+(x2)2=a+x⇒x4−2ax2−x+(a2−a)=0(a - x^2)^2 = a + x \Rightarrow a^2 - 2ax^2 + (x^2)^2 = a + x \Rightarrow x^4 - 2ax^2 - x + (a^2 - a) = 0(a−x2)2=a+x⇒a2−2ax2+(x2)2=a+x⇒x4−2ax2−x+(a2−a)=0 ⋯\cdots⋯

等等,等等。等等。这正是我该标记的顿悟时刻。 让我们逐步复盘,确认能否得到正确的和:⋯\cdots⋯ 初始方程为:

a−a+x=x\sqrt{a - \sqrt{a+x}} = xa−a+x​​=x

首先两边平方:

a−a+x=x2⇒a+x=a−x2a - \sqrt{a+x} = x^2 \Rightarrow \sqrt{a+x} = a - x^2a−a+x​=x2⇒a+x​=a−x2

接着,我可以再次对两边平方,处理方程:⋯\cdots⋯

⋯\cdots⋯

表3 | DeepSeek-R1-Zero 中间版本一个有趣的“顿悟时刻”。模型学会以拟人化语气重新思考。这对我们来说也是一次顿悟,让我们见证了强化学习的力量与美感。

所有这些行为都源于简单的强化学习。OpenAI 研究员 Sabastian Bubeck 指出:

模型未被赋予任何战术指令。所有行为皆为自发涌现。所有能力均通过强化学习习得。这简直不可思议。

训练 DeepSeek-R1 的强化学习阶段所需的算力成本可能仅约 100 万美元。

若此法持续有效,OpenAI、Anthropic 和谷歌如今便可为同一流程投入 10 亿美元,这大约相当于将算力扩大 1000 倍。⁠y

能实现如此大规模扩展的原因之一,在于模型能自主生成数据。

这看似循环论证,且合成数据引发“模型塌缩”的观点已广受讨论。

但在这种情况下,并不存在循环论证。你可以让 GPT-o1 解答 100,000 道数学题,只保留答对的案例,再用这些案例来训练下一个模型。

因为解答可以被快速验证,所以你生成了更多真正优质的推理范例。

事实上,这类数据的质量远高于网络数据——因为它包含完整的推理链,且已知正确(这恰恰是互联网的弱项)。⁠z

这可能会形成一个飞轮:

  1. 让模型解决大量问题。
  2. 用解决方案训练下一代模型。⁠aa
  3. 下一个模型可以解决更难的问题。
  4. 这会产生更多的解决方案。
  5. 循环往复。

如果模型现在就已经能进行博士级推理,那么下一阶段将是研究员级推理,进而产生创新性洞见。

这或许可以解释 AI 公司领袖们异常乐观的表态。Sam Altman 观点的转变,与 2024 年 12 月 o3 的发布时间完全吻合。

尽管在可验证领域最为强大,但其推理能力很可能至少具备一定的泛化能力。例如,我们已经看到 o1 在法律推理方面取得了进步。⁠ab

在商业战略或写作等其他领域,成功与否较难明确判断,故进程更为漫长,但我们有理由期待其在一定程度上是有效的。其成效如何,是未来一个关键问题。

3. 延长模型思考时长

若仅能思考一分钟,问题恐难有进展。

如果你能思考一个月,就会取得更大的进步——即使你的原始智力没有提高。

大语言模型曾无法对一个问题持续思考超过一分钟,否则错误就会累积或偏离主题,这极大地限制了它们的能力。

但随着模型推理可靠性的提升,它们已能进行更持久的思考。

OpenAI的研究表明,将模型的推理时间延长至常规水平的100倍,可以使其在编程问题上的准确率实现线性增长。

随着模型’思考’时间的增加,编码问题的准确率随之提升。

这被称为’测试时算力’——即模型运行时而非训练时消耗的算力。

如果说 GPT-4o 能有效思考约一分钟,那么 GPT-o1 和 DeepSeek-R1 似乎就能思考约一小时。⁠ac

随着推理模型的可靠性提升,它们将能持续思考更长时间。

按当前发展速度,不久将出现能思考一个月——乃至一年的模型。

(尤其耐人寻味的是:若模型能在充足算力下实现不限时思考——且假设原理上存在进步空间,它们将能持续优化对任何问题的解答。)

增加测试时算力,也能进行更强的暴力推理。另一种技巧是,尝试将一个问题解决 10 次、100 次或 1000 次,并选择获得最多“投票”的解决方案。这很可能是 o3 得以战胜 o1 的另一种方法。⁠ae

这一切最直接的实际结果是:你可以支付更高的价格,从而更早地获得更先进的能力。

量化而言,到 2026 年,我预计你将可以多支付 10 万倍的成本,来获得原本要到 2028 年才能实现的性能。⁠af

多数用户不会接受这种方案,但若面临关键的工程、科研或商业难题,即便花费百万美元也堪称划算。

尤其对人工智能研究者而言,这项技术或能为 AI 研究创造新的飞轮效应。该过程称为迭代蒸馏与迭代放大,详情可参阅此处。具体运作方式如下:

  1. 让模型思考更长时间,以获得更优答案(“放大”)。
  2. 用这些答案训练新模型。新模型无需长时间思考,即可即时生成近乎相同的答案(“蒸馏”)。
  3. 再让这个新模型思考更长时间,它就能生成比原始模型更优的答案。
  4. 重复。

这个过程本质上就是 DeepMind 如何让 AlphaZero 达到超人水平的方法:在围棋上,仅用几天时间、不借助任何人类数据就做到了。

4. 下一阶段:构建更好的智能体

GPT-4 就像一位第一天上班的同事:聪明博学,但只回答一两个问题就离开了公司。

不出所料,这其实用处也不大。

但如今,人工智能公司正将聊天机器人升级为智能体。

AI「智能体」能够为达成目标而执行一长串任务。

例如,当你需要开发应用程序时,无需逐步向模型求助,只需说一句:「开发能实现 X 功能的应用」。它便会主动提出澄清问题、构建原型、测试并修复漏洞,最终交付成品——其运作模式与人类软件工程师如出一辙。

智能体的工作原理是:为一个推理模型提供记忆和工具(即「脚手架」):

  1. 你告诉推理模块一个目标,它就会制定计划去实现它。
  2. 基于该计划,它会使用工具来采取行动。
  3. 行动的结果会反馈到记忆模块中。
  4. 推理模块更新计划。
  5. 循环持续进行,直至目标达成(或判定不可行)。

AI 智能体已能初步运作。

SWE-bench Verified 是一个由源自 GitHub 的真实软件工程问题组成的基准测试,这些问题通常需要大约一小时才能完成。

GPT-4基本无法处理此类问题,因其涉及多应用协同操作。

但若置于简易智能体脚手架中:⁠ag

  • GPT-4可解决约20%的问题。
  • Claude Sonnet 3.5可解决50%的任务。
  • 据称GPT-o3可解决70%以上的任务。

这意味着在完成这些离散任务上,o3已基本达到专业软件工程师的水平。

在竞赛编程题中,其表现可跻身全球前200名。

以下是这些编程智能体的实际运行效果:

要了解它的实际运行效果,请观看编程智能体 Devin 的演示。

现在我们来审视或许是全球最重要的基准:METR提出的一系列高难度AI研究工程问题(简称“RE Bench”)。

这些问题包括模型微调、预测实验结果等,都是工程师为改进尖端 AI 系统所攻克的难题。它们被设计为高度贴近实际 AI 研究的真正难题。

基于GPT-o1和Claude 3.5 Sonnet构建的简单智能体在两小时内表现优于人类专家。

这一表现超出了许多预测者的预期(且o3尚未接受测试)。⁠ah

当有两小时来完成困难的 AI 研究工程问题时,模型的表现优于人类。但如果时间超过两小时,人类仍能显著超越 AI 模型,且时间预算越长,优势就越明显。来源:Hjalmar Wijk 等 (2024年) RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts, arXiv:2411.15114 [cs.LG]

AI 的性能提升速度慢于人类,因此在大约四小时的时间点,人类专家仍然领先于 AI。

但AI模型正迅速追赶。

GPT-4o仅能完成需要人类耗时约30分钟的任务。⁠ai

METR制定了一个更广泛的任务基准,并按时间跨度对这些任务进行了分类。GPT-2仅能完成人类耗时数秒的任务;GPT-4可处理耗时数分钟的任务;而最新的推理模型能完成人类耗时不足一小时的任务。

Thomas Kwa 等 (2025年) Measuring AI Ability to Complete Long Tasks, arXiv:2503.14499 [cs.AI]

若此趋势延续至 2028 年末,AI 将能完成耗时数周的 AI 研究与软件工程任务。

由此推演,到 2028 年末,只要给AI数周时间,它们就将比人类专家表现得更好。

AI模型也日益理解自身所处的情境——能准确回答关于自身架构、历史输出以及是处于训练还是部署状态等问题——这是实现智能体自主性的另一项先决条件。

随着时间的推移,AI模型也日益能够报告自身所处的情境——例如判断自己是处于训练阶段还是已经部署——其表现在两年内从随机水平(约30%)提升到了60%。

轻松一点说,尽管Claude 3.7在玩宝可梦方面依然很糟糕,但已远胜于3.5版本,而就在一年前,Claude 3还根本不会玩。

当今AI模型在回答问题方面已相当“智能”,但仍无法替代人类工作者——因为真实工作并非由独立的单小时任务清单构成,而是包含决策规划、团队协作、长周期创新项目等复杂情境。

然而这些趋势表明,未来几年情况很可能改变。

智能体能提升到何种程度?

OpenAI将2025年称为“智能体元年”。

  • 尽管AI智能体脚手架仍处于初级阶段,但它已是顶尖实验室的首要任务,有望取得更多进步。
  • 将智能体脚手架与日益强大的推理模型相结合也会带来进步——这相当于给了智能体一个更好的“规划大脑”。
  • 这些智能体又将基于经过海量视频数据训练的基础模型,这可能使其感知能力大幅提升——而这正是当前的一大瓶颈。

一旦智能体能初步运作,就会解锁更多进展:

  • 为智能体设定一项任务,例如完成一次购买或撰写一条热门推文。如果任务成功,则运用强化学习来增加其下次成功的可能性。
  • 此外,每次成功完成的任务都可作为下一代智能体的训练数据。

世界是永不枯竭的数据源,让智能体自然构建出世界的因果模型。⁠aj

任何这些措施都能显著提升可靠性,正如本文多次所示,可靠性提升往往能瞬间解锁新能力:

  • 即便像查找并预订符合偏好的酒店这样简单的任务,也需要数十个步骤。如果每个步骤正确完成的概率是90%,那么正确完成20个步骤的概率就只有10%。

  • 但若每个步骤的可靠性达到99%,总体成功率将从10%跃升至80%——这正是从毫无用处到非常有用之间的区别。

功能完备的 AI 智能体将拥有比聊天机器人多10至100倍的应用。企业可以开始“雇佣”大量由少数人类监督的人工智能工作者。

II. 2030年人工智能将达到何种水平?

四大驱动因素的未来发展

展望未来两年,人工智能进步的四大驱动因素似乎都将持续并相互促进:

  1. 一个基础模型(“GPT-5”)将会发布,其训练所用的有效算力是 GPT-4 的 500 倍。
  2. 该模型(“GPT-o5”)可被训练用于推理,其使用的算力最高可达 GPT-o1 的 100 倍。
  3. 必要时,它能为每项任务进行相当于一个月的思考。
  4. 该模型将接入改进的智能体脚手架,并进一步强化其自主性。

这还远未结束。领先企业正按计划推进,将于 2028 年进行价值 100 亿美元的训练。这足以预训练一个 GPT-6 级别的基础模型,并进行多 100 倍的强化学习(或其他组合)。⁠ak

此外,推理模型等突破性进展约每 1-2 年出现一次,因此未来四年至少还应出现一次类似发现。并且,我们也有可能看到一个更根本的、类似于深度学习本身的突破。

进步驱动力2019–20232024–2028
扩展预训练有效算力每年 12 倍

总计 30 万倍

从 GPT-2 到 GPT-4
每年 12 倍

总计 30 万倍

从 GPT-4 到 GPT-6⁠al
后训练RLHF、CoT、工具使用推理模型强化学习

4 万倍扩展?⁠am
更长时间思考效果不佳在高价值任务上思考时间延长 10 万倍
智能体大多无法工作1 小时至数周的任务?
新的驱动力或范式突破RLHF、CoT、推理模型强化学习、基础智能体脚手架开始奏效。???

算力与人工智能人才的快速增长意味着更多发现可能出现。

综合来看,把未来想象成“略好一点的聊天机器人”是错误的。若没有遇到重大、颠覆性的困难⁠an,进展不会在此停滞。

真正的万亿级问题是,人工智能将发展到何种先进程度。

人工智能能力的趋势外推

要获得更精确的答案,方法之一是对衡量人工智能能力的基准测试进展进行外推。

鉴于所有进步的驱动因素均以与过去相近的速度持续发展,我们可大致外推近期的进步速率。⁠ao

以下汇总了所有讨论过的基准测试(另含若干补充项目)及其在2026年的预期表现:

基准测试2022年顶尖水平2024年末顶尖水平至2026年末趋势外推值
MMLU:综合大学与专业知识测试PaLM 69%~90%(饱和)⁠ap饱和
BIG-Bench Hard:涵盖常识推理、物理学至社会偏见等难题, 2021年专门为挑战LLM设计的难题集~70%⁠aq~90% (饱和)饱和
人类终极考题:汇集3000道人类知识前沿的极限难题集<3%⁠ar9%2025年2月已达25%
40%至饱和?
SWEbench认证:真实GitHub软件工程问题,多数可在一小时内完成<10%70%
(近人类专家水平)
饱和
GPQA钻石级:博士级科学问题,设计为无法通过谷歌搜索解答随机猜测 (25%)~90% (相关领域博士以上)饱和
MATH:高中数学竞赛题50%100%100%
前沿数学:需相关领域专业数学家解答的数学题0%25%50% 至饱和?
RE-bench:七项高难度AI研究工程任务0%两小时内超越专家水平50-500小时内超越专家水平
情境感知: 用于检验模型是否理解自身及上下文的问题<30%60%90%?

下一次飞跃可能会使我们具备超越人类水平的问题解决能力——即独立回答尚未解决的科学问题的能力。

这些系统能为哪些工作提供帮助?

现实中的诸多瓶颈阻碍着 AI 智能体的部署,即使对那些能在计算机上运行的智能体也是如此。这些瓶颈包括监管、不愿让 AI 做决策、可靠性不足、机构惯性,以及缺乏物理实体。⁠as

初期,强大的系统会价格高昂,其部署也将受限于可用的算力,因此只会用于执行最有价值的任务。

这意味着大部分经济活动短期内仍将维持常态。

你仍会咨询人类医生(即便他们使用人工智能工具),从人类咖啡师那里买咖啡,并雇佣人类水管工。

然而在若干关键领域,尽管存在这些瓶颈,这些系统仍可能快速部署并产生重大影响。

软件工程

这是人工智能当前最有用武之地的领域。谷歌表示,其约 25% 的新代码由人工智能编写;Y Combinator 的初创公司则称该比例高达 95%,并且增长速度是以往的数倍。

若编程成本降低十倍,其应用将大幅扩张。或许不久后,我们将见证员工寥寥却拥有数百个AI 智能体的十亿美元软件初创企业。多家AI初创公司已跻身史上增长最快企业之列。

OpenAI创立时,其营收增速创下史上初创企业之最。 此后,多家AI公司接连刷新纪录,最新者为编程助手公司Cursor。图表中特别标注了AI浪潮前典型的成功SaaS初创企业DocuSign作为对照。[来源](https://sacra.com/research/cursor-at-100m-arr/)。

这可能迅速创造数千亿美元经济价值——足以支持人工智能持续扩展。

科学研究

AlphaFold 的创造者们已经因设计出能解决蛋白质折叠问题的人工智能而荣获诺贝尔奖。

近期一项研究发现,某人工智能工具使顶尖材料科学研究者发现新型材料的速度提高了 80%,我预计一旦科学家为解决特定问题而调整人工智能——例如通过基因或宇宙学数据进行训练——就会涌现更多此类成果。

未来的模型或许仅需被提问就能产生真正新颖的洞见。即便不能,许多科学领域仍可通过蛮力破解——尤其在以虚拟为主但存在可验证答案的领域(如数学、经济建模、理论物理或计算机科学),通过生成数千个方案再验证可行性的方式,研究进程将大幅提速。

即便是生物学这类实验领域,也受制于编程与数据分析等瓶颈,这些限制本可大幅缓解。

单是核武器这般发明便能改写历史进程,因此这方面的任何加速都可能产生惊人影响。

人工智能研究

人工智能研究本身就是一个特别适合加速发展的领域。它不仅完全虚拟化,更是人工智能研究者最熟悉的领域——他们拥有强大的自动化动力,且部署人工智能时毫无障碍。

初期阶段,这会表现为研究人员使用“实习生级”AI 智能体来攻克特定任务,或弥补软件工程能力的不足(这是一个主要瓶颈),甚至协助头脑风暴。

后期则可能演变为让模型通读所有文献,生成数千种算法改进方案,并通过小规模实验自动测试。

已有AI模型产出通过同行评审的AI研究论文。

鉴于上述进展,在人类尚未解决所有技术瓶颈、使AI能够胜任多数远程工作岗位之前,AI智能体开展AI研究就可能成为现实。

因此,AI 的广泛经济应用并非衡量其进步的好方法——这种应用可能在 AI 能力已经大幅提升后才会爆发式出现。

反对 2030 年前 AI 取得重大进展的论据是什么?

反对AI取得重大进展的最有力的论据如下:

首先,承认人工智能在明确界定的离散任务中很可能超越人类,这意味着基准测试表现将持续快速进步。

但一种可能性是,它们在定义模糊、高情境依赖及长时程任务中仍会表现不佳。

原因在于这类任务缺乏明确可验证的答案,因此无法通过强化学习进行训练,并且在训练数据中代表性也不足。

这些也正是基准测试难以衡量的任务类型,这意味着我们缺乏关于人工智能在这些任务上表现如何的数据。

其次,多数知识型工作在很大程度上是由这类长时程、繁杂且高度情境化的任务构成。

例如软件工程师大量时间用于规划开发方向、协调团队协作、理解庞大代码库,而非机械完成预设任务清单。即便编码效率提升十倍,若编码仅占其工作50%,整体效率也仅翻倍。

在此情境下,我们将拥有极为聪明、知识渊博的 AI 助手,某些有限领域(例如数学研究)的发展可能会加速,但它们终究只是工具,人类仍将是主要的经济瓶颈。

人类AI研究者的生产力虽将提升,却不足以形成正反馈循环。

这些限制叠加商业模式困境及部署障碍,将导致模型无法创造足够收入来支撑逾100亿美元的训练成本。这意味着2028年后进展将大幅放缓。⁠at一旦进展放缓,前沿模型的利润率将崩溃,使后续训练资金更难筹措。

主要反驳论点来自METR先前的图表:模型在处理更长的时间跨度任务时的表现显著提升,这需要更深的上下文理解能力及处理更抽象、更复杂任务的能力。据此趋势推演,四年内有望出现高度自主的模型。

更长时间跨度上的自主能力,可通过我已概述的许多渐进式进步实现⁠au,但也可能出现更根本的创新——人类大脑本身就证明了这种能力的可能性。

这或许是人工智能预测的核心问题:人工智能的行动时间跨度会停滞不前,还是会持续提升?

进展放缓还可能源于以下因素:

  • 预训练将面临显著边际效益递减,因此GPT-5和GPT-6的实用性可能与现有模型相差无几(或许因数据质量递减所致)。
  • 从专家级问答,到产生新颖见解的能力之间可能存在巨大鸿沟(即便考虑蛮力问题求解的可能性)。
  • 人工智能在视觉感知方面将持续表现不佳,从而限制其使用计算机的能力(参见莫拉维克悖论)。
  • 基准测试可能因数据污染以及难以涵盖复杂任务而产生误导。
  • 经济危机、台海冲突、其他灾难或大规模监管打击可能使投资延迟数年。
  • 存在其他不可预见的瓶颈(参见规划谬误)。

欲深入探索怀疑论观点,参见史蒂夫·纽曼的Are we on the brink of AGI?、马修·巴内特的The promise of reasoning models,以及瑟恩·鲁塞尼斯的‘A Bear Case: My Predictions Regarding AI Progress’。

“专家”预计AGI何时到来?

我提出了一些大胆主张。作为非专家,若有专家能指引我们思考方向,那将再好不过了。

遗憾的是,这样的专家并不存在。只有一些各有弱点、观点各异的群体。

我已在另文中梳理了这些专家群体的观点。简言之,我认为2030年前实现AGI(通用人工智能)完全在人工智能专家与预测者的合理预期范围内。许多人也认为这需要更长的时间,但如果30%的专家认为一架飞机会爆炸,而另外70%认为它会没事,作为非专家,我们就不应该断定它绝对不会爆炸。

III. 为何未来五年至关重要

既然我们不知道 AGI 何时会出现,很自然就会认为它可能很快到来——可能是在 2030 年代、2040 年代,以此类推。

尽管这是个普遍的观点,但我并不确定它是否正确。

人工智能进步的核心驱动力是更多的算力和更优的算法。

当用于提升人工智能的算力和人力投入呈现爆发式增长时,更强大的人工智能就极可能被发明。

当前,用于训练和运行人工智能的总算力正以每年三倍的速度增长,⁠av同时劳动力也在快速扩张。

这意味着每年可运行的AI模型的数量将变为三倍,同时用于训练的算力也能提升至三倍——配合更优算法,AI的智能水平也将同步跃升。

此前我曾论证这些趋势可延续至2028年。但现在我将证明,此后不久很可能遭遇瓶颈。

2030年前后的瓶颈

首要瓶颈:资金

  • 谷歌、微软、Meta等巨头正投入数百亿美元构建集群,以期在2028年训练出GPT-6级别的模型。
  • 若要再扩大10倍规模,需投入数千亿美元。这不仅超过其当前年利润总额,其规模堪比阿波罗计划或曼哈顿计划。⁠aw
  • GPT-8 将需要数万亿美元。AI 必须成为军事最高优先级,或已创造数万亿美元的收入(这很可能已构成 AGI)。

即便资金到位,仍将面临以下瓶颈:

  • 电力: 若保持当前的 AI 芯片销售水平,到 2028 年,其用电量将占美国总电力的 4% 以上⁠ax;而规模再扩大 10 倍,则将消耗 40% 以上。这虽有可能实现,但需新建大量发电厂。
  • **芯片生产:**台积电(TSMC)生产全球所有领先的人工智能芯片,但其最先进产能仍主要用于手机。这意味着台积电当前 AI 芯片产能尚有 5 倍提升空间,但实现 50 倍增长将面临巨大挑战。⁠ay
  • ‘延迟限制’同样可能阻碍 GPT-7 级别的训练规模。⁠az

因此,算力增长率很可能在 2028–2032 年间趋缓。

当前算法进步同样迅猛,但每取得一次突破,下一次突破的难度就会越来越大。要维持稳定的进步速度,需要 呈指数级增长的研究人员队伍。

2021年, OpenAI员工约300人;如今已逾2000人。Anthropic和DeepMind规模也增长了三倍以上,新公司不断涌入。每年产出的机器学习论文数量约每两年翻一番。⁠2

要精确定义真正推动能力进步的员工队伍(而非销售产品或从事其他机器学习研究的人员)实属不易。但如果这支队伍需要每 1-3 年扩大一倍,那么在人才库耗尽之前,这种增长也持续不了多久。⁠ba

依我之见,增长极易延续至本十年末,但很可能在2030年代初开始放缓(除非届时人工智能已足够强大到能替代 AI 研究人员)。

算法进步同样依赖于算力的提升,这能支持更多实验。在充足算力下,研究者甚至可进行[暴力搜索](https://www.cold-takes.com/预测变革性人工智能-生物 Anchors 方法-一文概括)来寻找最优算法。因此,算力增长放缓将相应拖慢算法进步。

若算力与算法效率每年仅提升 50% 而非 3 倍,那么相当于 GPT-3 到 GPT-4 的飞跃将耗时超过 14 年而非 2.5 年,算法突破的概率也将降低。

因此存在一场竞赛:

  • AI 模型能否得到足够的改进,以便在训练成本变得无法负担之前,产生足够的收入来支付下一轮的训练?
  • 在我们能投入此问题的人类研究者耗尽之前,模型能否开始为算法研究做出贡献?

关键时刻将在2028至2032年间到来。

要么进展放缓,要么人工智能自身突破瓶颈,使进步得以延续甚至加速。

人工智能的两种潜在未来

如果在 2028–2032 年前仍未能实现可加速 AI 研究的 AI,其问世的概率将大幅下降。

进展不会突然停止——而是会逐渐放缓。以下是对 AGI 实现概率的示意性估算:

来源:示意性估算

粗略而言,我们可以设想两种情景:⁠bb

  • 要么我们在 2030 年前后实现变革性人工智能
  • 要么这将是一个缓慢得多的过程,可能耗时数十年

未来几年内,我们大概就能知道自己身处哪种情境。

我大致认为这两种情境概率各半——尽管我每天的估计都会在 30% 到 80% 之间波动。

具体概率还取决于定义标准。我更关注能实质推动AI研究的预测性AI。⁠bc 若将AGI定义为“能以低于人类成本完成几乎所有远程工作任务的模型”,我预计其实现会因长尾瓶颈而需要更长的时间。另一方面,若AGI的定义是“在给定一小时内,推理能力优于几乎所有人类”,那么它似乎已基本实现。

结论

那么,文章开头关于 2028 年实现 AGI 的说法呢?

无论具体定义如何,大量证据都支持这种可能性——我们或许只需要将当前趋势再维持几年。

即使到2028年未能实现,到2032年也很可能实现。

认为2032年前实现的概率低于10%,这种观点显然过于乐观。

鉴于其深远的影响与严峻的风险,有充分证据表明我们应极度重视这一可能性。

当下的形势酷似 2020 年 2 月新冠疫情封锁前夕:一个清晰的趋势预示着重大变革迫在眉睫,但大多数人依旧生活如常。

在后续文章中,我将论证:AGI 自动化大部分远程工作并使经济规模翻倍,这一结果可能都还算是保守的。

如果人工智能能够开展人工智能研究,AGI 与“超级智能”之间的差距可能就会很短。

这可能引发科研队伍的大规模扩张,在不到十年的时间里实现一个世纪的科学进步。机器人技术、生物工程和太空殖民的实现都可能比普遍预期的要早得多。

未来五年,将是历史上最关键的时期之一的开端。

扩展阅读

  • 关于近期人工智能快速发展的最佳论证,见 Leopold Aschenbrenner 所著的《态势感知》第一章。

  • 内森·拉本茨的播客《强化学习有效!》对推理模型有精彩阐释。

  • 托马斯·普埃约的入门文章涵盖了与本文相似的内容,并且更易理解:The most important time in history is now。

  • Epoch AI 发布了一篇人工智能预测方法全景综述。所有预测都与 AGI 将在 2030 年前到来的观点一致,尽管有些给出的概率较低。(在该综述发表后,其中一些预测的时间线也已缩短。)

  • Epoch AI 还拥有许多支撑本文的优质数据集。请参阅其关键趋势页面获取概览,另可查阅其文章Can AI scaling continue through 2030?。

  • 数年前流行的一种人工智能预测方法是:估算训练人类大脑所需的算力,然后推测领先的人工智能模型何时可能超越该水平(简而言之:我们现在可能已经达到这个水平了)。霍尔登·卡诺夫斯基撰写的 Forecasting transformative AI: the “biological anchors” method in a nutshell 对此有入门介绍。

  • When do experts expect AGI to arrive?另可参阅Through a glass darkly(作者:Scott Alexander),该文探索了从人工智能专家预测中能获得哪些启示。

  • 以下是我所见过的,反对未来数年出现变革性人工智能进展的最佳文章:史蒂夫·纽曼的 Are we on the brink of AGI?、马修·巴内特的 The promise of reasoning models,以及塞恩·鲁塞尼斯的 ‘A Bear Case: My Predictions Regarding AI Progress’。


原文发布:Benjamin Todd (2025年) The case for AGI by 2030, 80,000 Hours, 四月月。