GPT-4难以胜任世界模拟器,LeCun力挺此观点

8次阅读

共计 1898 个字符,预计需要花费 5 分钟才能阅读完成。

大型语言模型与世界模拟的争论

长期以来,许多人认为大型语言模型(LLM)能够积累海量事实知识,从而为构建“世界模拟器”提供基础。尽管反对者不少,但此前缺乏充足的实证证据。近期亚利桑那大学、微软和霍普金斯大学等联合团队发布的一项新研究,直接否认了这一点。该论文已被 ACL 2024 会议接收,揭示了 GPT- 4 在模仿常识性任务状态变化时,准确率仅约 60%。

研究团队提出的关键观点是,尽管 GPT- 4 等模型表现令人印象深刻,缺乏真正的创新和底层世界模型,它们难以成为可信赖的世界模拟器。为此,研究者设计了一个名为 bytesized32-state-prediction 的全新基准测试,专门用于评估大型语言模型的规划与模拟能力。该测试的代码和数据已在 GitHub 开源,助力后续研究深挖 LLM 的能力边界。

LeCun 的态度及业界反响

长期对自回归语言模型持怀疑态度的 LeCun,也转发并力挺这篇论文。他直接指出:“没有真正的世界模型,就不可能有有效规划能力。”这一立场引发了社群热烈讨论,支持者认为即使目前的 LLM 准确率只有 60%,也代表某种层面的世界模型逐步成形。但 LeCun 则坚决表示,LLM 内部并非真正的世界模型。

尽管业界大佬 Geoffrey Hinton 强调 AI 正超越统计预测,展现出更深层的理解能力,但要说大模型已经成了世界模拟器,目前仍相距甚远。

模拟世界的重要性与挑战

对 AI 来说,模拟世界是理解和学习世界的关键。传统仿真往往成本高昂,耗时长,需要专家长期投入构建详细模型。相比之下,LLM 通过预训练吸收大量知识,理论上可成为替代方案。但问题是,这些模型真的能即插即用,作为精准模拟器吗?

为此,研究团队选择文本游戏作为虚拟环境,考察 LLM 的表现。文本游戏可以形式化为部分可观测的马尔可夫决策过程(POMDP),包括状态空间、动作空间和状态转移函数等多个核心元素。研究给予模型针对游戏环境的“上下文信息”,包括动作规则、物体属性和奖励机制。

研究方法与实验设计

研究者定义了一种新型任务:LLM-as-a-Simulator(LLM-Sim),用以量化语言模型作为世界模拟器的能力。该任务目标是让模型预测给定状态及动作下的后续状态、奖励和任务完成度。状态转移分为行为驱动和环境驱动两种类型,例如“打开水槽”为行为驱动状态变化,“水充满杯子”为环境驱动。

模型预测采用两种模式:完整预测下一状态,或预测状态差异。通过这种结构化的 JSON 模式表示,团队不仅提升了预测准确率,也能更细致地拆解 LLM 的能力点。

实验结果与发现

测试数据选自公开的 Bytesized32 文本游戏库,包含 32 个由人类设计的游戏,涉及 7.6 万个以上的状态转移实例。GPT- 4 被用来预测基于不同规则环境下的状态变化。

结果显示,静态(未变化)状态转移预测准确率普遍高于动态(有变化)状态。在动态转移中,GPT- 4 对行为驱动的预测准确率最高达到 77%,但对环境驱动类别准确率仅约 50%。缺乏游戏规则指导时,模型性能明显下降,但无论是人类编写还是由 LLM 自动生成的规则,对准确率影响较小。

有趣的是,GPT- 4 对由其自身生成的规则表现更佳,准确率提升超过 10 个百分点,似乎说明模型对自制规则更容易理解。

人类与 GPT- 4 的对比

为对比模型表现,作者亲自参与了测试。人类预测准确率约为 80%,远超 GPT- 4 徘徊在 50-60% 的水平,这凸显了 LLM 与人类之间在规划任务中存在明显差距。由于单步预测误差会积累,较低的准确率使得 LLM 难以充当高效、可靠的文本世界模拟器。

此外,人类的准确率波动较小,说明任务设置相对简单且符合人类直觉。而模型的表现则暴露出诸多短板。

深入分析模型缺陷

论文深入拆解预测结果,发现模型较擅长预测二元布尔属性的状态(例如是否开启),但对复杂属性的表现欠佳。这包括需要算术计算的温度,涉及常识判断的相机光圈,以及基于科学推理的灯泡状态等。这些缺陷精准反映了模型在常识和科学推理方面的不足。

同时,模型在完整状态预测时往往过于关注行为驱动的状态转移,忽略了环境驱动的影响,导致“未改变值”的错误产生,而这些错误在状态差预测任务中往往可以避免。

研究意义与未来展望

该研究虽只以 GPT 系列模型为对象,未覆盖所有种类的大模型,但其意义在于设立了可操作的基准测试框架,明确提出了量化 LLM 世界模拟能力的标准和评测流程。这为未来探索 LLM 在模拟和理解复杂世界方面潜力奠定了基础。

总的来说,目前的 LLM 还远未达到成为全能的世界模拟器的水平,未来仍需在模型结构、知识整合以及推理深度上进行跨越式发展。对 AI 规划和决策能力的提升,依然离不开真正理解世界规律的“模型”的支持。

正文完
 0