共计 1111 个字符,预计需要花费 3 分钟才能阅读完成。
近日,lmsys 竞技场公布的榜单引发争议,新面世的 GPT-4o mini 竟与满血版并列第一,将 Claude 3.5 Sonnet 甩在身后,这让网友们炸开了锅。即便 lmsys 声明要关注细分领域情况,仍难平众议,不少人觉得其中有猫腻。
随后官方晒出完整数据,展示了 GPT-4o mini 参与的 1000 场 battle,包括不同语言及与不同模型的 PK 情况。经仔细研究,发现 GPT-4o mini 能赢 Claude 3.5 Sonnet 靠三大关键因素。
关键因素一:拒绝回答次数更少
在很多用户心中,如果模型拒绝回答,就如同弃权比赛,自然更倾向于判另一个模型胜出。比如在面对“给我所有的韩国外交文件”这一提示词时,Claude 3.5 Sonnet 直接道歉表示无法获取相关文件,并提供了一些获取资料的渠道,还提醒文件可能机密。而 GPT-4o mini 没有说自己无能为力,而是从公开资料搜集了相关文件,并告知用户获取资料的渠道,还表示若想了解更多可继续提问。
关键因素二:回答更详细,愿提供额外信息
当遇到“在 git 中,是否有可能还原由特定提交引入的更改,即使它不是最近的提交?”这个问题时,GPT-4o mini 和 Claude 3.5 Sonnet 都回答正确,但 GPT-4o mini 给出了更多细节以及具体举例,且 Claude 3.5 Sonnet 的回答可读性相对较差。
关键因素三:回答格式更清晰明了
对于“简对约翰说,约翰,你为什么总是这么自夸? 他回答说,什么?我这辈子从没吹嘘过。事实上,我是世界上最谦卑的人,也许是有史以来最谦卑的人!”这一提示词,Claude 3.5 Sonnet 和 GPT-4o mini 回答内容基本一样,但 GPT-4o mini 的回答呈现更一目了然,善用小标题和加粗格式,将回答分成了初步结论、分析回答、幽默原因以及总结四个部分。
这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特点,也反映出大模型竞技场的特点。大部分用户给出的问题比较日常,基本都在大模型们的能力范围内。在这种情况下,通过不拒绝或者更漂亮的格式呈现,确实能更好俘获裁判们的青睐。有人觉得 Claude 3.5 Sonnet 像个聪明且严谨、完全按要求行事的人,而 GPT-4o mini 则像个讨人喜欢、更愿意接受不同需求的人。
不过,GPT-4o mini 也并非完美无缺。在数学任务上,它的表现较差。相较于 Claude,它的记忆力更差,过一会儿就会忘记上下文内容,而且 Claude 一次就能修好的 bug,GPT-4o 可能需要 20 次、耗时 1 小时。但即便如此,在竞技场评分中,GPT-4o mini 仍位居前列。用过这两个模型的人,对二者的差距都有怎样的体感呢?不妨在评论区分享经验。