共计 1442 个字符,预计需要花费 4 分钟才能阅读完成。
最近,OpenAI 因进展缓慢饱受 criticism,不仅 GPT- 5 的发布遥遥无期,连 GPG-4o 的语音功能也被延迟了一个月。为了回应用户的期待,OpenAI 推出了一个新模型——CriticGPT,这一工具被视为 GPT- 4 的辅助功能。
CriticGPT 的目标是识别 GPT- 4 生成代码中的错误。它实际上也是利用 GPT- 4 训练的,但作用是纠正 GPT- 4 的生成内容。这种自我“闭环”引发了一些争议,推特用户们快速地对此表示了质疑,调侃说就像用石头去摧毁石头,听起来确实让人忍俊不禁。
不过,有人认为这可能是模型自我提升的开端。尽管 OpenAI 还没有明确 CriticGPT 何时会集成到 ChatGPT 中,但技术文章已经发布,而这篇作品还是一位离职员工的遗作,作者团队中有 Jan Leike。
让我们仔细探讨一下,这种让 GPT- 4 自我“提升”的方法究竟如何实现。RLHF(Reinforcement Learning from Human Feedback)是常用的对齐方法,训练师通过收集关于同一问题不同的响应并进行评分,从而改进模型。
随着 ChatGPT 的表现越来越好,它的错误也逐渐变得更细微,让训练师更难察觉。这限制了 RLHF 的效果,因为一旦模型具备比任何提供反馈的专家更高的知识水平,基于人类评价来调整模型将变得更加困难。
因此,OpenAI 的可扩展监督团队决定跳出传统的 RLHF 框架,直接训练一个模型来为 ChatGPT 的输出撰写批评意见,以纠正其中的不准确之处。这种策略似乎是对 RLHF 的补充,而 CriticGPT 的训练过程仍然采用了 RLHF 方法。
核心思路相当简单:CriticGPT 是通过自回归模型进行训练的。标注者首先会在 ChatGPT 的响应中注入一些细微的错误,而 CriticGPT 则针对这些错误生成批评意见,最终由人类训练师为这些批评意见评分和排名。
CriticGPT 的训练流程比较类似于 ChatGPT,包括对每个问题和答案采样生成批评意见,由人类评估其各属性和整体质量,并训练奖励模型用于预测人类对模型输出的整体质量排名,最后使用强化学习来优化模型。
团队特别强调为什么要人为地在 ChatGPT 的输出中注入错误,而不是直接筛选出存在的问题。研究表明,未经修改的输出往往缺乏足够的严重问题,从而降低了用于改进批评意见的数据价值。此外,若无法控制错误的类型,CriticGPT 生成的批评可能会变得开放且模糊,难以验证其正确性。
人为篡改的优点在于能够创造出高质量且不易察觉的错误,且一般来说更为严重。这使得人类训练师更容易分辨出 CriticGPT 漏掉的明显问题。整个过程中的篡改方式都极具复杂性,这样能够确保生成的错误符合高质量标准。
在评估 CriticGPT 的批评意见时,团队从几个维度进行评分,包括回避遗漏、准确捕捉预设错误、避免无中生有的问题,并考虑整体实用性。总的来说,CriticGPT 在错误检测的能力上展现了出色的全面性,甚至在很多方面超越了人类评估者的表现。
虽然 CriticGPT 在许多方面都表现出色,但依然存在幻觉问题。人类评估者相较于 CriticGPT 和 ChatGPT 更不容易产生误解,这说明在批评意见的全面性与准确性之间需要进一步的平衡。
长远来看,可扩展监督的目标是帮助人类更好地评估模型,从而训练出更安全的策略。未来仍需探讨如何在没有明确的真实答案和奖励函数的情况下,训练更为泛化的批评模型。CriticGPT 的创新方法为以后的 RLHF 训练提供了灵感,有望提升模型生成质量和准确性。