微软开源Phi-4推理模型:小而强,反卷出圈

20次阅读

共计 356 个字符,预计需要花费 1 分钟才能阅读完成。

AI 圈现在有意思的是小模型打败大模型。微软研究院开源了 Phi-4-reasoning-plus,专为深度结构化推理设计。

它只有 14B 参数,不到 DeepSeek 70B 的五分之一,在数学等方面表现却不错。在 AIME 2025 数学考试上,全题正确率超过了 70B 的模型。

微软团队让 AI 学会慢思考,把推理链作为核心训练目标,训练模型写推理过程,用标签详细写出思考等。在 RL 阶段,答错鼓励更长推理链,答对鼓励简洁。

Phi-4-reasoning 的推理链长度刚好模拟人类思考。Phi-4-reasoning-plus 在 SFT 后加了基于规则的强化学习,奖励设计精妙。

评测结果显示,Phi-4-reasoning 和 plus 在数学等基准上超过了更大体量的模型,在新领域也有很强迁移力,在一些非推理任务中也有提升。让 AI 慢思考更可持续。

正文完
 0