OpenAI o1:数学推理能力令人瞩目

3次阅读

共计 1740 个字符,预计需要花费 5 分钟才能阅读完成。

最近,OpenAI 发布的 o1 模型在国际数学奥林匹克题目上展现了惊人的数学推理能力,难道真的是因为死记硬背?来自香港大学的研究人员为此进行了系统的 AB 测试,深入探讨 o1 在数学题解中的表现。

研究的核心在于如何验证一个大型语言模型(LLM)是否具备强大的数学推理能力。为了实现这一目标,研究者设计了两种不同的考试卷,一种是容易获取的试卷,另一种则是难以查找的题目,这样的对比能够有效评判模型的真实实力。各试卷的难度大致相同,如果 o1 在这两次考试中的得分相仿,那就表明它的能力是真实存在的;反之,若得分差异明显,则可能暗示其存在依赖记忆的可疑做法。

在这项研究中,o1 所面对的两份试卷分别来自国际数学奥林匹克(IMO)和中国国家队训练营(CNT)。IMO 题目普遍易于获取,而 CNT 的题目则由于不公开而显得更具挑战性。研究作者通过对比 o1 在这两个数据集上的表现得出结论:o1 的数学实力并非虚假。

OpenAI o1 的推出,瞬间点燃了推理模型的讨论热潮。该模型采用了强化学习以训练 token-wise 奖励模型,模拟推理和反思的过程,从而在生成 token 的过程中展现出一种内在的思维链风格。简单来说,o1 的推理过程就像是一个制定并执行计划的过程。

在此前的测试中,有报告指出 o1-mini 在美国高中 AIME 数学竞赛中可排进全美前 500,但同时也有评测结果不尽如人意。为了更加公正地评测 o1 的数学推理能力,研究者们编制了两个专门的数据集。第一个数据集包含了过去十年国际数学奥林匹克竞赛中的 60 个问题,而第二个数据集则由中国国家队训练营的 60 个非公开问题构成。CNT 训练营的目的是为了帮助学生准备 IMO 比赛,选拔过程通常需要经过 8 到 10 次的测试,每次长达四个半小时,形式与实际比赛相似。

研究者在进行测试时提出了两种假设:第一,o1-mini 的问题解决能力是建立在推理能力上的;第二,o1-mini 的表现可能来源于对问题和解决方案的记忆,或者是对预训练模式的模仿。如果原假设成立,我们预计该模型在 IMO 和 CNT 数据集上的表现会相似;而如果第二种假设成立,那么 o1 在两个数据集上的表现将出现显著差异,也就是说在 IMO 数据集中的得分可能会更高。

实验过程中,采用了 latex 作为数学问题编写的标准格式,这样便于 o1 进行处理。o1 并不需要任何额外的提示,研究者直接将 latex 格式的题目文件提供给 o1-mini 进行测试。评分标准遵循 IMO 和 CNT 数学竞赛的标准:每道题目最多 7 分,数字答案得 1 分,合适的直观方法得 2 分,而剩余的 4 分则用于评估其推理步骤的详尽程度。

在数学领域中,推理的复杂性和逻辑步骤的明确性都十分重要,与此相比,LLM 一般更擅长整体概念的理解,因此在评分时整体概念的把握可能被关注得较少。对于一些基于证明的问题,评分系统会对正确的思维链给予 2 分,而其余 5 分则看重的是 LLM 能否提供严谨的论证,强调推理的连贯性。

在评估 o1-mini 的回答时,研究者注意到该模型在展现严密的证明步骤方面常常不够一致。相比于正式的证明过程,o1-mini 常表现出“试错”的策略,往往经过多次尝试,通过非正式的推理和启发式整合得出最终答案,然而这种推理缺乏数学证明所需的严密性。

针对这种情况,研究者决定不再强求正式的证明,转而关注于评估模型是否具有正确的直觉并能通过推理得出有效结果。新的评估标准将问题分为两类:第一个是搜索类型的问题,要求寻找特定的数字或解决方案;第二个是解决类型的问题,涉及对方程或优化问题的解析。所有的评分由熟悉相关数学领域的人工评估员进行,并提供全部问题集的审查,以确保评估的透明度。

实验结果显示,o1-mini 在这两个数据集上的表现没有显著差异,表明其能力并非源于对答案的简单记忆,而在于其基础的推理能力。

从案例研究中发现,o1 通常以叙述风格呈现思考过程,并使用严谨的数学语言给出最终答案。在某些情况下,思考过程中提供的直觉确实是解决问题的关键,但也会在最后的解决方案部分出现逻辑错误,尤其是在回答搜索类问题时,未能充分论证其他解决方案的存在。

通过这些研究,我们可以更深入地理解 o1 的数学推理能力及其局限性,虽然 o1 在许多问题上的表现让人印象深刻,但它依然在某些复杂推理上存在疏漏,仍需进一步优化。

正文完
 0