Meta Llama 4:从闪耀到崩塌的惊魂72小时

3次阅读

共计 1453 个字符,预计需要花费 4 分钟才能阅读完成。

开源大模型 Llama 4 的“翻车”事件仍在持续发酵。4 月 8 日,大语言模型“权威榜单之一”的 Chatbot Arena 发布声明,针对社群对 Meta 新模型 Llama 4 排名的质疑,将公开 2000 多场真人对比测试完整数据,并罕见点名 Meta。该声明不仅是澄清,也给大模型行业敲响了警钟。

Chatbot Arena 由加州大学伯克利分校发起,是极具行业影响力的“真人盲测”排行榜。其核心机制是让开发者和 AI 爱好者用相同问题向两款模型提问,对比回答并投票打分。这种机制使它区别于其他基准测试,成为外界信赖的大模型排行榜。一款模型在该排行榜的名次,直接影响其在媒体和开发者群体中的口碑与采纳率。

4 月 5 日,Meta 发布最新一代开源大模型 Llama 4,迅速冲上 Chatbot Arena 排行榜第二,仅次于 Google 的 Gemini 2.5 Pro,引发众人好奇与期待。但很快,社区发现这是未公开、定制化调优的“实验模型”,争议随之而来:这是否算“刷榜”?Chatbot Arena 是否被用作营销工具?Meta 为何这样做?更糟糕的是,在部分专业基准测试中,Llama 4 表现不佳,几乎垫底。不少用户在社交平台表达失望,有人指出其编程能力不尽人意。

01 从高光到塌房,Llama 4 的 72 小时惊魂

4 月 5 日,Meta 在官方博客宣布 Llama 4 系列模型开源,公开了三个版本,均首次采用混合专家(MoE)架构。其中最受关注的 Maverick 版本,被描述为“同类最佳的多模态模型”。然而,Llama 4 发布后,情况超出 Meta 预期。首批用户对其表现不满,在多个测试中,尤其是代码能力和逻辑推理场景,Llama 4 未达超越 GPT、DeepSeek 的宣传。如在 Aider Chat 的 Polyglot 编程测试中,Maverick 版本正确率仅 16%,处于排行榜末尾,落后于规模更小的开源模型。

风评下滑之际,更严厉的质疑出现:Llama 4 是否用公开测试集训练?是否针对 Chatbot Arena 针对性优化?这些质疑在技术社区迅速传播。中文移民社区“一亩三分地”上,自称 Meta 员工的人发帖称 Meta 将测试集混入“后训练”。Meta 团队出面澄清,经手“后训练”的成员实名表示未为刷点而过度拟合测试集,负责 Meta GenAI 的副总裁也明确表示 Meta 未在测试集上训练 Llama 4,并发布开源版本回应批评。但这些回应未能回避 Llama 4 真实能力的问题,其在性能上确实存在问题,从“高光”跌入“信任危机”。

02 DeepSeek 加速开源,Meta 被逼到失速

表面看,Llama 4 口碑翻车充满戏剧张力,有匿名离职员工爆料 Meta 高层为赶 Deadline 将测试集混入“后训练”,甚至传言负责 AI 的副总裁因反对离职。但从公开信息看,这些说法经不起推敲。Llama 4 的问题在于开源大模型竞争加剧下的失速。

过去两年,Meta 凭借 Llama 2 和 Llama 3 在开源模型市场建立“领先、可靠”认知。但 Llama 4 发布时,DeepSeek V3/R1 扭转了开源与闭源模型差距,加速了开源模型发展,给 Llama 带来更大压力。Llama 4 有 Deadline,在参数规模膨胀、架构复杂化的同时,可能没留够测试和改进时间,导致发布后性能不稳定。此外,Meta 针对对话模式优化无可厚非,但“首发”Chatbot Arena 的目的明显,且这个特调版本可能牺牲了其他方面。Meta 的做法虽起初获得期待和关注,但实际表现令人失望,打破了用户对 Llama 系列的认知。Meta 需直面其他大模型崛起甚至超越自己的现实,才有机会补救。

正文完
 0