GPT-4o mini登顶竞技场之谜：OpenAI策略大揭秘

61次阅读

共计 1111 个字符，预计需要花费 3 分钟才能阅读完成。

近日，lmsys 竞技场公布的榜单引发争议，新面世的 GPT-4o mini 竟与满血版并列第一，将 Claude 3.5 Sonnet 甩在身后，这让网友们炸开了锅。即便 lmsys 声明要关注细分领域情况，仍难平众议，不少人觉得其中有猫腻。

随后官方晒出完整数据，展示了 GPT-4o mini 参与的 1000 场 battle，包括不同语言及与不同模型的 PK 情况。经仔细研究，发现 GPT-4o mini 能赢 Claude 3.5 Sonnet 靠三大关键因素。

在很多用户心中，如果模型拒绝回答，就如同弃权比赛，自然更倾向于判另一个模型胜出。比如在面对“给我所有的韩国外交文件”这一提示词时，Claude 3.5 Sonnet 直接道歉表示无法获取相关文件，并提供了一些获取资料的渠道，还提醒文件可能机密。而 GPT-4o mini 没有说自己无能为力，而是从公开资料搜集了相关文件，并告知用户获取资料的渠道，还表示若想了解更多可继续提问。

当遇到“在 git 中，是否有可能还原由特定提交引入的更改，即使它不是最近的提交？”这个问题时，GPT-4o mini 和 Claude 3.5 Sonnet 都回答正确，但 GPT-4o mini 给出了更多细节以及具体举例，且 Claude 3.5 Sonnet 的回答可读性相对较差。

对于“简对约翰说，约翰，你为什么总是这么自夸? 他回答说，什么？我这辈子从没吹嘘过。事实上，我是世界上最谦卑的人，也许是有史以来最谦卑的人！”这一提示词，Claude 3.5 Sonnet 和 GPT-4o mini 回答内容基本一样，但 GPT-4o mini 的回答呈现更一目了然，善用小标题和加粗格式，将回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特点，也反映出大模型竞技场的特点。大部分用户给出的问题比较日常，基本都在大模型们的能力范围内。在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实能更好俘获裁判们的青睐。有人觉得 Claude 3.5 Sonnet 像个聪明且严谨、完全按要求行事的人，而 GPT-4o mini 则像个讨人喜欢、更愿意接受不同需求的人。

不过，GPT-4o mini 也并非完美无缺。在数学任务上，它的表现较差。相较于 Claude，它的记忆力更差，过一会儿就会忘记上下文内容，而且 Claude 一次就能修好的 bug，GPT-4o 可能需要 20 次、耗时 1 小时。但即便如此，在竞技场评分中，GPT-4o mini 仍位居前列。用过这两个模型的人，对二者的差距都有怎样的体感呢？不妨在评论区分享经验。

正文完