共计 1235 个字符,预计需要花费 4 分钟才能阅读完成。
DeepSeek 刚发布了一篇关于推理时 Scaling Law 的新论文,引发众人猜测 R2 是否即将出现。然而,奥特曼却发布了“变卦”消息,称计划改变,可能在几周后先发布 o3 和 o4-mini,而大家期待的 GPT- 5 将在几个月后发布,且效果会比最初设想的更好。奥特曼解释说,整合所有内容比想象中困难,希望确保有足够能力支持预期需求。
在这个小插曲之后,让我们聚焦在 DeepSeek 的这篇新论文上。这篇名为 Inference-Time Scaling for Generalist Reward Modeling 的论文由 DeepSeek 和清华大学共同提出。研究核心亮点是提出了 SPCT 方法(Self-Principled Critique Tuning),即通过在线强化学习优化原则和批判生成,实现推理时扩展。
此前,大家用奖励模型(Reward Model, RM)在 RL 中为大语言模型生成奖励信号,但现有 RM 在通用领域表现受限,尤其是面对复杂、多样化任务时。因此出现了两个关键挑战点。一个是通用 RM 需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励);另一个是现有 RM(如标量 RM、半标量 RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。为解决这些问题,DeepSeek 和清华大学团队提出了 SPCT。
研究的三大核心技术点
首先是生成式奖励模型(GRM)。它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如 critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。其中,C 是生成的 critique,fextract 从中提取分数。
接下来是关键的 SPCT。主要通过在线强化学习(RL)训练 GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。整体来看,SPCT 是一个两阶段的过程,分别是拒绝式微调(Rejective Fine-Tuning):冷启动阶段,通过采样和拒绝策略生成初始数据。基于规则的在线 RL:使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。
在此基础上,便是第三个技术点,即推理时扩展技术。先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。
基于上述方法,团队进行了测试。在 Reward Bench、PPE、RMB 等基准上,DeepSeek-GRM-27B 显著优于基线方法(如 LLM-as-a-Judge、标量 RM),且通过推理时扩展(32 次采样)性能进一步提升(如 Reward Bench 准确率从 86.0% 提升至 90.4%)。
总而言之,这篇研究证明了推理时扩展在通用 RM 中的有效性,性能超越训练时扩展。
此外,奥特曼发布“变卦”消息时,还不忘宣传自己,称有两本他亲自参与的书即将发布,一本是 Keach Hagey 写的关于奥特曼本人的书,另一本是 Ashlee Vance 写的关于 OpenAI 的书。