GPT-5训练坎坷,OpenAI新进展及AGI引发探讨

4次阅读

共计 3612 个字符,预计需要花费 10 分钟才能阅读完成。

GPT- 5 被爆出效果远未达预期。OpenAI 连续 12 场发布会结束后,众人期待的 GPT-5/4.5 不见踪影,此时华尔街日报爆料其消息。GPT- 5 至少已完成 2 轮训练,每次长达数月,然而每次训练后都会出现新问题。OpenAI 专门雇人编写代码、解答数学题,为 GPT- 5 从头创建数据,虽也采用 AI 合成数据,但效率欠佳,满足 GPT- 5 预训练需求颇具难度。据估算,一次为期 6 个月的训练,仅计算成本就需 5 亿美金,GPT- 5 两次训练均不顺利,背后成本堪称天文数字。

Ilya 前不久在 NeurIPS 2024 上宣称预训练即将终结,这似乎再次得到验证……这也与 The Information 此前的爆料相呼应,随着 GPT 系列进化速度放缓,OpenAI 正尝试调整战略,如推出 o1、o3 系列。目前,OpenAI 对最新爆料尚未作出回应。

在华尔街日报的爆料中,OpenAI 对 GPT- 5 寄予厚望。它期望 GPT- 5 能够进行科学探索发现,完成诸如预约、订航班等例行人类任务,还希望其减少错误,或者能够承认错误存在,即减少幻觉。这与更早透露的信息相契合,OpenAI 前 CTO Mira 曾形象地将 GPT- 5 的智能水平比作博士生。这意味着 GPT- 5 能够在某些特定领域取得高水平成绩,能像研究生、博士那样深刻理解、推理,并具备专业知识。相比之下,GPT- 3 如同蹒跚学步的孩子,GPT- 4 则是高中生。

今年 10 月,OpenAI 最新筹集到 66 亿美元融资,估值飙升至 1570 亿美元。投资者的再次加码,也被认为是因为相信 GPT- 5 将实现重大飞跃。然而,GPT- 5 的发布一直悬而未决。奥特曼此前表示,GPT- 5 不会有明确的发布时间,何时准备好便何时发布,这个时间可能是 2025 年,也可能是 2026 年。如今回顾,GPT- 5 的推出可谓坎坷不断。

2023 年,OpenAI 被曝光放弃了一个代号为 Arrakis 的模型,放弃原因是该模型无法在保持性能的同时减少对计算资源的需求,未达预期训练效率。这实际上反向证明,若要训练规模更大的模型,需要更庞大的计算资源与更长时间。从设定来看,GPT- 5 显然会是个“巨无霸”。

GPT- 5 的开发于 GPT- 4 发布时启动,至今已过去 18 个多月,其内部代号为猎户座 Orion。按照原本计划,微软希望在 2024 年年中看到 GPT-5。华尔街日报披露,GPT- 5 的大规模训练至少进行了 2 轮,每次耗时数月,且每次都遇到新问题。即便在最佳情况下,Orion 比 OpenAI 目前的产品表现更好,但与所消耗的成本相比,这种提升并不显著。据估测,一次为期 6 个月的训练,仅算力成本就高达 5 亿美元,相比之下,GPT- 4 的训练成本超过 1 亿美元。

另一方面,想要获得更好的模型,就需要更多数据。公共资源的数据消耗殆尽,OpenAI 决定雇人从头构建数据。据爆料,它专门找来一些软件工程师、数学家编写代码、解答数学题,供 GPT- 5 学习。一直以来,AI 圈内都认为模型学习代码可提升其解决其他问题的能力。同时,OpenAI 还与一些物理学家合作,让 GPT- 5 学习科学家理解领域内问题的方式。但问题在于,这样做速度太慢。

OpenAI 也尝试走 AI 合成数据的路子,据说 GPT- 5 使用了 o1 合成的数据。这种范式或许已得到论证。隔壁 Anthropic 也被爆料使用 AI 合成数据训练模型,他们将最好用的模型内部自留合成数据,因为模型性能与合成数据质量直接相关。

以上便是 GPT- 5 的最新相关信息。不过话说回来,最近似乎没多少人还在乎 GPT- 5 了(手动狗头)。毕竟 OpenAI 凭借 o1、o3 系列开启了推理 Scaling Law。刚刚发布的 o3 在 ARC-AGI 上刷新成绩,最新结果报告显示,在 400 项公共任务上,o3 的最佳成绩已达 91.5%。

在核心机制上,o3 也带来新启发。它通过 LLM 在 token 空间内搜索和执行,实现了测试时的知识重组。随着 o3 系列发布,AGI 的预言依旧颇具吸引力。o3 在 ARC-AGI 测试中表现出色,那它离 AGI 还有多远呢?

简单介绍一下 ARC-AGI 数据集,题目是带有色块的网格阵列(以文本形式表述,用数字代表颜色),大模型需观察每道题目中的 3 个输入 – 输出示例,然后依据规律填充新的空白网格。这几个示例较为简单,但实际面临的问题可能如下:

ARC-AGI 测试集共包含 400 道公开试题和 100 个私有问题。在公开问题中,o3 高效率版的准确率为 82.8%,消耗了 1.11 亿 Token,平均每个任务成本为 17 美元。低效率版本(计算量是高效版的 172 倍),准确率高达 91.5%,不过消耗的 Token 数也达到了惊人的 95 亿。

另外,OpenAI 还制作了一个专门针对 ARC-AGI 的版本,使用了 75% 的公开数据集进行训练。这个版本在私有测试集上测试,结果显示,低计算量模式取得了 76% 的准确率,高计算量模式则为 88%。并且,低计算量版本的成本在 ARC-AGI-Pub 的规则范围内(<$10k),成为了公共排行榜上的第一名。88% 的高计算量版本则过于昂贵,但仍表明新任务的性能确实随计算量增加而提高。

在此之前,GPT- 3 的准确率为零,GPT-4o 为 5%,o1 最好也刚超过 30%。ARC 挑战的发起者之一、前谷歌资深工程师、Keras 之父 François Chollet 认为,o3 能够适应以前从未遇到过的任务,在 ARC-AGI 领域已接近人类水平。当然成本也十分高昂,即便低计算量模式,每个任务也需 17 – 20 美元,而发起方雇佣真人解决此类问题的成本,平均到每个问题仅 5 美元。

但抛开成本问题,Chollet 指出,o3 对 GPT 系列的改进证明了架构的重要性,认为无法在 GPT- 4 上通过投入更多计算获得这样的成绩。那么,通过 ARC-AGI 测试,是否意味着 o3 实现 AGI 了呢?Chollet 认为并非如此。通过测试发现,o3 在一些非常简单的任务上仍会失败,这表明其与人类智能存在根本差异。

另外,ARC-AGI 的下一代 ARC-AGI- 2 即将推出,早期测试表明其将对 o3 构成重大挑战,即便在高计算量模式下,其得分也可能降至 30% 以下(而聪明人仍能得分超过 95%)。但无论是否达到 AGI,o3 所能实现的成绩都是前所未有的,甚至有人认为,针对 ARC 这样的任务,人类的优势其实在于视觉推理,如果改成像模型看到的那样用文本形式描述图形,那人类未必比 AI 做得更好。

并且,针对 o3“没能成功”的一个案例,还有人质疑是标准答案有误。这道题中,变化规律是将处于同一行或列的两个蓝色格子连成线,并把穿过的红色区域整块涂蓝。这道题的“标准答案”和 o3 的尝试,区别在于绿色框中的部分是否被涂成蓝色:在三个示例中,由红变蓝的部分都是被连线从中间穿过,但在这道题中连线是从这个 3×4 的红色区域下方经过,o3 因此认为不该把这块区域涂蓝。

那么,o3 又是如何实现的呢?有人认为是通过提示词,但 ARC 挑战负责人 Greg Kamradt 和 OpenAI 的研究人员 Brandon McKinzie 均否认了这一说法,表示给 o3 的提示词非常简单。另外 Chollet 推测,o3 的核心机制似乎是在 Token 空间内搜索和执行自然语言程序——在某种评估器模型引导下,搜索可能描述解决任务所需步骤的思维链空间。按照 Chollet 的观点,o3 实现了测试时的知识重组,总之,o3 构建出了一种通向 AGI 的新范式。

英伟达 AI 科学家范麟熙(Jim Fan)认为,o3 的本质是“放松单点 RL 超级智能,以覆盖有用问题空间中的更多点”。也就是用深度换取广度,放松对个别任务的强化学习,换得在更多任务上的通用性。范麟熙举例说,像 AlphaGo、波士顿动力电子地图集都是超级人工智能,在特定任务上表现出色。但 o3 不再是像这样只能应付单点任务的专家,而是一个在更大的有用任务集都表现优异的专家。不过范麟熙也表示,o3 仍然无法涵盖人类认知的所有分布,我们仍处于莫拉维克悖论之中。(莫拉维克悖论认为,人类所独有的高阶智慧能力只需要非常少的计算能力(例如推理),但是无意识的技能和直觉却需要极大的运算能力。)ARC 挑战发起方的发现——o3 在一些非常简单的任务上失败,似乎刚好印证了这一观点。

最后,关于 AGI,范麟熙表示,我们已经实现了巨大的里程碑,并且有清晰的路线图,但还有更多事情要做。

作为 12 天发布的一部分,OpenAI 在最后一天发布 o3 的同时,还发表了一篇关于安全问题的论文。论文引入了一种名为慎重对齐(deliberative alignment)的对齐方式,直接向推理模型传授人工编写、可解释的安全规范,并训练它们在回答之前对这些规范进行明确推理。结果,训练出的模型无需人工标记的 CoT 或答案,就能高度精确地遵守 OpenAI 的安全政策。

OpenAI 发现,o1 在一系列内部和外部安全基准方面显著优于 GPT-4o 等其他最先进模型,并且在许多具有挑战性的(安全)数据集上的性能达到饱和。这一发现,揭示了推理将成为提高模型安全性的一条新途径。

正文完
 0