CriticGPT：让GPT-4自我纠错的全新探索

88次阅读

共计 1442 个字符，预计需要花费 4 分钟才能阅读完成。

最近，OpenAI 因进展缓慢饱受 criticism，不仅 GPT- 5 的发布遥遥无期，连 GPG-4o 的语音功能也被延迟了一个月。为了回应用户的期待，OpenAI 推出了一个新模型——CriticGPT，这一工具被视为 GPT- 4 的辅助功能。

CriticGPT 的目标是识别 GPT- 4 生成代码中的错误。它实际上也是利用 GPT- 4 训练的，但作用是纠正 GPT- 4 的生成内容。这种自我“闭环”引发了一些争议，推特用户们快速地对此表示了质疑，调侃说就像用石头去摧毁石头，听起来确实让人忍俊不禁。

不过，有人认为这可能是模型自我提升的开端。尽管 OpenAI 还没有明确 CriticGPT 何时会集成到 ChatGPT 中，但技术文章已经发布，而这篇作品还是一位离职员工的遗作，作者团队中有 Jan Leike。

让我们仔细探讨一下，这种让 GPT- 4 自我“提升”的方法究竟如何实现。RLHF（Reinforcement Learning from Human Feedback）是常用的对齐方法，训练师通过收集关于同一问题不同的响应并进行评分，从而改进模型。

随着 ChatGPT 的表现越来越好，它的错误也逐渐变得更细微，让训练师更难察觉。这限制了 RLHF 的效果，因为一旦模型具备比任何提供反馈的专家更高的知识水平，基于人类评价来调整模型将变得更加困难。

因此，OpenAI 的可扩展监督团队决定跳出传统的 RLHF 框架，直接训练一个模型来为 ChatGPT 的输出撰写批评意见，以纠正其中的不准确之处。这种策略似乎是对 RLHF 的补充，而 CriticGPT 的训练过程仍然采用了 RLHF 方法。

核心思路相当简单：CriticGPT 是通过自回归模型进行训练的。标注者首先会在 ChatGPT 的响应中注入一些细微的错误，而 CriticGPT 则针对这些错误生成批评意见，最终由人类训练师为这些批评意见评分和排名。

CriticGPT 的训练流程比较类似于 ChatGPT，包括对每个问题和答案采样生成批评意见，由人类评估其各属性和整体质量，并训练奖励模型用于预测人类对模型输出的整体质量排名，最后使用强化学习来优化模型。

团队特别强调为什么要人为地在 ChatGPT 的输出中注入错误，而不是直接筛选出存在的问题。研究表明，未经修改的输出往往缺乏足够的严重问题，从而降低了用于改进批评意见的数据价值。此外，若无法控制错误的类型，CriticGPT 生成的批评可能会变得开放且模糊，难以验证其正确性。

人为篡改的优点在于能够创造出高质量且不易察觉的错误，且一般来说更为严重。这使得人类训练师更容易分辨出 CriticGPT 漏掉的明显问题。整个过程中的篡改方式都极具复杂性，这样能够确保生成的错误符合高质量标准。

在评估 CriticGPT 的批评意见时，团队从几个维度进行评分，包括回避遗漏、准确捕捉预设错误、避免无中生有的问题，并考虑整体实用性。总的来说，CriticGPT 在错误检测的能力上展现了出色的全面性，甚至在很多方面超越了人类评估者的表现。

虽然 CriticGPT 在许多方面都表现出色，但依然存在幻觉问题。人类评估者相较于 CriticGPT 和 ChatGPT 更不容易产生误解，这说明在批评意见的全面性与准确性之间需要进一步的平衡。

长远来看，可扩展监督的目标是帮助人类更好地评估模型，从而训练出更安全的策略。未来仍需探讨如何在没有明确的真实答案和奖励函数的情况下，训练更为泛化的批评模型。CriticGPT 的创新方法为以后的 RLHF 训练提供了灵感，有望提升模型生成质量和准确性。

正文完

发表至：科技

2025-12-09

0

OpenAI发布GPT时代就业秘笈，80%白领工作受冲击

斯坦福2023 AI报告解读：中国科研实力跃升与AI发展趋势