共计 781 个字符,预计需要花费 2 分钟才能阅读完成。
Meta 在周末发布了最新 AI 模型系列 Llama 4,包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型经大量数据训练,具备广泛视觉理解能力。
Llama 4 模型系列特点
Llama 4 Scout 拥有 170 亿激活参数和 16 个专家,是强大的多模态模型,适配单个 NVIDIA H100 GPU,提供业界领先的 10M 上下文窗口。Llama 4 Maverick 有 128 位专家、170 亿个激活参数,在基准测试中表现出色,性价比一流。Llama 4 Behemoth 是 Meta 目前最强大的模型之一,在多项 STEM 基准测试中优于其他模型。
预训练方法
Meta 在构建 Llama 4 时采用多种新预训练方法。首次采用混合专家(MoE)架构,计算效率更高。还采用早期融合将文本和视觉 token 整合,改进视觉编码器,开发新训练技术 MetaP,用 FP8 精度训练,通过中期训练提升模型核心能力。
后训练改进
Llama 4 Maverick 在图像和文本理解方面性能领先。后训练时,Meta 通过精心设计的课程策略平衡多种能力,改进流程为轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO),提升了模型性能。
性能表现
Llama 4 Maverick 相比 Llama 3.3 70B,以更低价格提供更高质量。Llama 4 Scout 提升了上下文长度,在多方面表现出色。Llama 4 架构创新,通过交错注意力层和温度缩放增强长上下文泛化能力。两款模型在图像和视频训练后,具备广泛视觉理解能力。
Llama 4 Behemoth 挑战与应对
Llama 4 Behemoth 预览版是多模态混合专家模型,参数众多。对其进行后训练挑战巨大,Meta 通过剪枝 SFT 数据、调整训练顺序、优化强化学习基础设施等措施,提升了模型性能。
目前,Llama 4 Scout 和 Llama 4 Maverick 已开放下载。