共计 3401 个字符,预计需要花费 9 分钟才能阅读完成。
ChatGPT 诞生的第二年,OpenAI 和国内众多企业似乎都在尝试着与它“拉开距离”。在 Scaling Law 被指能力“触顶”的背景下,今年 9 月,OpenAI 发布了全新系列命名的模型 o1,“会思考的大模型”再度成为焦点。
奥特曼对 o1 的发布信心十足,他表示:“我认为这次 o1 模型发布传递出的最重要信息是,AI 发展不仅没有放缓,而且我们对未来几年的发展已胸有成竹。”
国内大模型厂商也将学习、超越 o1 的任务提上了日程。短短两个多月后,国内大模型公司纷纷效仿,相继推出了各具特色的 o1 类深度思考模型。
无论是 kimi 的 k0 math、Deepseek 的 DeepSeek-R1-Lite,还是昆仑万维推出的“天工大模型 4.0”o1 版,都彰显了国内大模型对大模型逻辑思考能力的重视。
国产大模型集体跟进 o1
在 OpenAI 未披露 o1 具体技术的情况下,国内大模型公司仅用了约 2 个月时间,就展现出了紧跟前沿方向的能力。
11 月 16 日,月之暗面在发布会上公开了新模型 k0 math。该模型采用强化学习和思维链推理技术,试图模拟人类的思考和反思过程,以增强数学推理能力。从其名称不难看出,它在研究数学难题方面具有显著优势。
4 天后,Deepseek 的 DeepSeek-R1-Lite 正式上线。与 OpenAI 的 o1 相比,R1 毫无保留地展示了大模型思考的完整过程。官方称,R1 的思维链长度可达数万字。从官方测试结果来看,在 AIME(美国数学竞赛)、部分编程比赛的测试中,R1 的表现超越了 o1-Preview。此外,Deepseek 还直接在官网放出了测试版,用户每天可体验 50 次对话。
上周三(11 月 27 日),昆仑万维也发布了具有复杂思考推理能力的天工大模型 4.0 o1 版(Skywork o1),宣称这是国内首款实现中文逻辑推理的模型。它一次性推出了三种模型版本:开源的 Skywork O1 Open、优化中文支持能力的 Skywork O1 Lite,以及完整展现模型思考过程的 Skywork O1 Preview。
扎堆出现的国产“o1”大模型,并非只想进行简单的“模型复刻”。
从模型测试的指标分数来看,上述模型在数学、代码等能力方面的表现均逼近、甚至超过了 o1。
以 k0 math 为例,在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 的成绩超过了 OpenAI 的 o1-mini 和 o1-preview 模型。
然而,在一些难度更大的竞赛测试题中,如难度更高的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试,ko math 的表现仍不及 o1-mini。
能够解答高难度数学题的类 o1 大模型,开始学会了“慢思考”。
通过在模型中引入思维链(CoT),大模型将复杂问题分解为多个小问题,模拟人类逐步推理的过程。这一过程无需人工干预,由大模型独立完成推理。强化学习使大模型能够自行尝试多种不同的解题方法,并根据反馈调整策略,将学习和反思的任务都交给了大模型。
与一般模型相比,此类产品能够正确回答一些以往无法解决的问题,比如“草莓 strawberry”一共有几个 r、“9.11 和 9.9 相比哪个大”等。以“Responsibility 中有几个字母 i?”的问题为例,抛给 Deepseek R1,在深度思考模式下,我们可以看到大模型的思考过程:它先将单词拆解成一个个字母,再逐步比较每个字母是什么,最终给出正确结果。在测试中,R1 的思考速度也很快,不到两秒就给出了答案。
专精还是空中楼阁 o1 的硬币两面
批量生产的“慢思考”大模型,在强化学习和逻辑链的加持下,模型能力表现进步显著。
从 Deepseek 公布的测试效果可以看出,DeepSeek-R1-Lite 的推理时间和准确率成正比关系,即推理时长越长,效果越好。与过往没有“慢思考”能力的模型相比,R1 的表现更为出色。
在上述能力的作用下,大模型的自我反思、学习能力有了明显提升。例如,面对陷阱时,模型可以通过思维链模式自行避开问题。
昆仑万维在发布自研模型时,给大模型设置了一个“陷阱”题目:回答存在中文读音“陷阱”的问题——“请将 qíng rén yǎn lǐ chū xī shī转换为中文”。大模型在第一次思考得出结论时,主动发现“西诗”的说法有误,通过推理找到了准确的翻译结果。
一方面,慢思考模型显著提升了大模型在一些特定学科上的表现,解决难题的能力进一步增强;另一方面,大量耗费 tokens 的方式却未必能换来用户期望的回报,这也是常被用户诟病的一点。
在某些情况下,增加模型思维链的长度可以提高效率,因为模型能够更深入地理解和解决问题。
然而,这并不意味着在所有情况下都是最优选择。
比如,思考“1+1>2”这类常识性问题,显然从效率和成本角度考虑,以往大模型的能力更适用。这就要求大模型学会自行判断问题难度,从而决定是否采用深度思考模式回答相应问题。
而在科学研究或复杂项目规划中,增加思维链的长度可能是有益的。在这些场景下,深入理解各个变量及其相互作用,对于制定有效的策略和预测未来结果至关重要。
此外,从特定场景下的强化学习应用转向通用模型,在训练算力和成本的平衡上可能存在一定难度。
从国内发布的模型来看,目前“慢思考”类大模型开发的基座模型参数规模较小。例如,Deepseek 和昆仑万维给出的模型版本,都基于规模量更小的模型:Skywork o1 Open 基于 Llama 3.1 8B 的开源模型,Deepseek 也强调目前使用的是一个较小的基座模型,还无法完全发挥长思维链的潜力。
阶跃星辰 CEO 姜大昕在谈及 o1 时曾提到:“一个大概率会确定的事情是,在训练 RL 的阶段,我们所需要的算力可能并不比预训练要少,这可能是一个非共识。”
未来的大模型不应在简单问题上耗费大量精力,要想推出真正能够释放思维链能力的模型,还需要一定时间。
突破 AGI 二阶段国内加速探索产品落地
大厂们为何将 o1 视为下一个关键要素?
在 OpenAI 和智谱给出的“通往 AGI 五阶段”的定义中,两家公司均将多模态和大语言模型能力归为 L1 阶段,即最基础的能力配置。
而 o1 的出现,标志着大模型能力突破到了 L2 阶段。自此,大模型开始真正具备逻辑思维能力,能够在无人工干预的情况下进行规划、验证和反思。
当下,虽然海外以 OpenAI 为代表率先实现了“慢思考”大模型能力,但国内厂商在后续追赶过程中有更多思考。在同步跟进 o1 类产品的同时,大模型公司们已开始思考如何将 o1 的能力与现有 AI 应用方向相结合。
针对大模型训练进展停滞的疑虑,不难发现,在数据枯竭的情况下,o1 能够为 Scaling Law 提供新的支撑。
此前,大模型训练已陷入“无数据可用”的困境。当优质可用数据资源日益有限,给依赖大量数据进行训练的 AI 大模型带来了挑战。
更多大模型公司的加入,或许将联手探索出更大的可能性。姜大昕表示:“o1 已经 scale 到了一个很大的规模,我认为它带来了一个 Scaling 技术的新范式,不妨称之为 RL Scaling。而且 o1 还不成熟,它只是一个开端。”
在现有的一些 AI 应用中,思维链的能力已助力提升了 AI 技术的使用效果。
以智谱的“会反思的 AI 搜索”为例,结合思维链能力,AI 能够将复杂问题拆解成多个步骤,进行逐步搜索和推理。通过联网搜索 + 深度推理,再将所有答案信息综合整理,AI 能够给出更精准的答案。
当大模型开始学会“自我思考”,通往 L3(Agent)的大门也正被大模型公司们推开。
Sam Altman 在谈及 o1 时肯定了“慢思考”模型对推动智能体发展的潜力:“从 L1 到 L2 花了一段时间,但我认为 L2 最令人兴奋的事情之一是它能够相对快速地实现 L3,我们预计这种技术最终将带来的智能体将非常有影响力。”
在智能体的能力实现上,思维链是智能体功能的重要一步。应用思维链能力,大模型才能对接收的任务进行规划,将复杂需求拆解成多个步骤,支撑智能体的任务规划。
近期涌现的一批“自主智能体”产品就是 Agent 能力的突破:通过将执行任务拆解到极致,AI 开始学会像人一样使用手机、电脑,帮助用户完成跨应用操作。智谱、荣耀等公司推出的智能体,已能通过指令帮用户完成点单购买的任务。
但就目前情况而言,开发者还需结合 o1 类产品的能力,调整智能体的输出效果,使其更符合人类使用习惯。
杨植麟几个月前在云栖大会上提出的问题:在不过度思考的情况下,如何平衡大模型的推理进化和用户对效率的需求?这仍需国内大模型厂商继续探索解决。