共计 1952 个字符,预计需要花费 5 分钟才能阅读完成。
今日凌晨三点,阿里推出了全新的推理模型 QwQ-32B。这款模型虽然参数量为 320 亿,但性能却足以与拥有 6710 亿参数的 DeepSeek-R1 满血版相抗衡。
千问发布推文称:「此次,我们对扩展强化学习(RL)的方法进行了研究,并基于 Qwen2.5-32B 取得了一些令人瞩目的成果。我们发现强化学习训练能够持续提升性能,特别是在数学和编码任务方面。并且我们观察到,强化学习的不断扩展有助于中型模型实现与巨型混合专家(MoE)模型相当的性能。欢迎与我们的新模型交流并给予反馈!」
QwQ-32B 已在 Hugging Face 和 ModelScope 上开源,采用 Apache 2.0 开源协议。用户也可以通过 Qwen Chat 直接体验该模型。
千问官方发布了题为「QwQ-32B:领略强化学习之力」的中文博客,介绍了这一备受关注的进展。鉴于强化学习之父 Richard Sutton 及其导师 Andrew Barto 刚刚荣获图灵奖,QwQ-32B 的发布可谓恰逢其时。
博客中提到,大规模强化学习具有巨大潜力,有望在提升模型性能方面超越传统的预训练和后训练方法。
近期研究表明,强化学习能够显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了领先的性能,使其能够进行深入思考和复杂推理。
而千问团队则探索了大规模强化学习对大语言模型智能的提升作用,推理模型 QwQ-32B 应运而生。
这是一个拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 相媲美。该团队表示:「这一成果凸显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。」
QwQ-32B 还集成了与智能体相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。该团队表示:「我们希望我们的努力能够证明,强大的基础模型与大规模强化学习相结合,可能是通往通用人工智能的一条可行途径。」
模型效果
QwQ-32B 在一系列基准测试中进行了评估,包括数学推理、编程和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。可以看出,QwQ-32B 的表现十分出色,在 LiveBench、IFEval 和 BFCL 基准上甚至略微超过了 DeepSeek-R1-671B。
强化学习
QwQ-32B 的大规模强化学习是在冷启动的基础上进行的。
在初始阶段,专门针对数学和编程任务进行强化学习训练。与依赖传统奖励模型不同,千问团队通过校验生成答案的正确性为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码方面的反馈。
随着训练轮次的推进,QwQ-32B 在这两个领域的性能不断提升。
在第一阶段的强化学习之后,他们又增加了另一个针对通用能力的强化学习。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。结果发现,通过少量步骤的通用强化学习,可以提升其他通用能力,同时在数学和编程任务上的性能没有明显下降。
API
如果想通过 API 使用 QwQ-32B,可以参考以下代码示例:(此处应补充具体代码示例,但原文未给出,暂无法完整呈现)
未来工作
千问团队在博客中还分享了未来计划,其中提到:「这是 Qwen 在大规模强化学习以增强推理能力方面的第一步。通过这一过程,我们不仅看到了扩展强化学习的巨大潜力,也认识到预训练语言模型中尚未开发的可能性。在致力于开发下一代 Qwen 的过程中,我们相信将更强大的基础模型与依托规模化计算资源的强化学习相结合,将使我们更接近实现通用人工智能(AGI)。此外,我们正在积极探索将智能体与强化学习集成,以实现长时推理,目标是通过扩展推理时间来释放更高的智能。」
QwQ-32B 一经发布便收获了众多好评,甚至不少读者都催促尽快报道。
在前一段时间的 DeepSeek 热潮中,大家热衷于讨论满血版,因为蒸馏版性能有限。然而,671B 的满血版模型难以轻易部署,普通端侧设备只能选择性能稍逊的版本。如今,Qwen 降低了模型规模,端侧设备是否有了新希望呢?
有网友表示,手机上可能还无法运行,但运行内存较高的 Mac 或许可以尝试。
还有人呼吁阿里巴巴通义实验室的科学家 Binyuan Hui 开发更小的模型。
也有人分享了体验,称运行速度很快:苹果机器学习研究者 Awni Hannun 也已在 M4 Max 上成功运行了 QwQ-32B,看起来速度非常快。
在 Qwen 的官方聊天界面(Qwen Chat),已经可以看到 QwQ-32B 的预览版模型。感兴趣的读者可以前去测试。测试链接:https://chat.qwen.ai/。