共计 356 个字符,预计需要花费 1 分钟才能阅读完成。
AI 圈现在有意思的是小模型打败大模型。微软研究院开源了 Phi-4-reasoning-plus,专为深度结构化推理设计。
它只有 14B 参数,不到 DeepSeek 70B 的五分之一,在数学等方面表现却不错。在 AIME 2025 数学考试上,全题正确率超过了 70B 的模型。
微软团队让 AI 学会慢思考,把推理链作为核心训练目标,训练模型写推理过程,用标签详细写出思考等。在 RL 阶段,答错鼓励更长推理链,答对鼓励简洁。
Phi-4-reasoning 的推理链长度刚好模拟人类思考。Phi-4-reasoning-plus 在 SFT 后加了基于规则的强化学习,奖励设计精妙。
评测结果显示,Phi-4-reasoning 和 plus 在数学等基准上超过了更大体量的模型,在新领域也有很强迁移力,在一些非推理任务中也有提升。让 AI 慢思考更可持续。
正文完