共计 1841 个字符,预计需要花费 5 分钟才能阅读完成。
小模型市场又掀起了一阵热潮!在 GPT-4o mini 和 Mistral NeMo 发布之后,苹果也加入了这个竞争激烈的领域,推出了其全新的 DCLM 小模型。
DCLM 系列包含两种参数规模,分别是 70 亿 和14 亿,并且一经发布就实现了全开源。70 亿参数的大模型在性能上超越了 Mistral 7B,表现接近 Llama 3 和 Gemma,给人留下深刻印象。
根据苹果的研究人员 Vaishaal Shankar 介绍,这款小模型是迄今为止性能最强的“真正开源”模型,不仅包含权重和训练代码,还基于开放数据集 DCLM-Baseline 进行开发。这种全方位的开源模式在科技圈内极为罕见,这也使苹果赢得了不少网友的好评。
更多令人期待的是,Shankar 还透露,未来还会发布模型的中间检查点和优化器状态。“难道这预示着 LLM 开源社区的春天终于到来了吗?”网友们纷纷猜测。
DCLM 系列全开源
DCLM 模型的权重已经全部上传至 HuggingFace,相关的模型卡也为用户提供了大量关键信息,从而利于开发者使用。
DCLM-7B 采用了 decoder-only 架构,搭建在 PyTorch 和 OpenLM 框架上进行预训练。该模型使用了来自 DCLM 总数据池 240T 中过滤出的 2.5T 数据进行训练,同时上下文长度设置为 2048,虽然小于 Mistral 7B 和 Gemma 2 9B 的 8k 长度,但性能依然不容小觑。
为了确保评估的客观性,作者采用了评估套件 LLM Foundry,对模型在 53 个基准任务上进行了全面测试。结果显示,DCLM-7B 在多个指标上表现优异,尤其是在核心准确率与扩展准确率方面,通过对比其他同等规模的开源模型,DCLM 的表现位列第一。
具体来说,在 5 -shot 的 MMLU 任务中,DCLM-7B 的准确率达到了 63.7%,较之前的 SOTA MAP-Neo 提升了 6.6 个百分点,并且训练所需的计算量大幅降低了 40%。这样的提升不禁让人惊叹。
不过,若与权重开源、数据集封闭的模型进行比较,DCLM 的效果就稍显不足,尤其是在与 Phi- 3 和 Mistral 7B-v0.3 的成绩对比中,其分数普遍存在一定差距。不过,研究团队贴心地表明,通过使用额外的 100B 数据集进行训练,并扩展上下文长度至 8k 时,模型在多项指标上的表现将会大幅提升。
微调与不同版本的表现
值得注意的是,HuggingFace 上同时发布了 DCLM-7B 的指令微调版本,其在数学推理任务 GSM8K 中的表现大幅提升,分数从原来的 2.1 飙升至 52.5。
与 7B 版本同步推出的还有 1.4B 版本,虽然参数较少,但训练数据的规模却比 7B 版提升了 0.1T,显示出惊人的效率。与最近发布的 SmolLM 相比,DCLM-1B 在多个任务上的表现优势明显,尤其是在 MMLU 上,其 5 -shot 分数较 SmolLM 高出了 11.9%。
不仅如此,DCLM-1B 的 MMLU 得分 41.9 同样超过了其他相似规模的模型,令人印象深刻。7B 模型虽然数据处理更复杂,但最终却被 1.4B 模型超越,这令人吃惊也让人不禁想起小模型的潜力。
数据质量的重要性
提到 DCLM 系列模型的重要基础,DataComp 基准不容忽视。这篇论文于 6 月 17 日首发,由苹果的研发团队共同撰写,详细探讨了数据集的构建过程以及对 DCLM 模型的分析。
Vaishaal Shankar 表示,未来将会发布更新版的论文,以提供更多关于模型预训练的技术细节。与科技巨头们的研发思路相悖,DataComp 的创新在于使用固定模型,通过大规模数据池筛选出最优数据,强调了训练数据质量的重要性。
在当前 AI 模型研发中,数据质量变得越来越重要,甚至被认为是提升模型性能的关键因素。以 GPT- 4 为例,开发如此庞大的模型背后的成本高达一个亿美元,而相对小规模的模型,仅需几百万美元甚至更少。这无疑为小型模型的真正实力提供了支持。
苹果在其 AI 发展路线图中确定了小型模型的方向,计划将模型集成到手机软件中,实现更快且安全。这意味着在完成许多任务时,小模型将展现其优势,避免了大模型的“过剩”。
未来小模型的机遇
小模型的兴起背后是对训练方法的重新思考,有时候在特定任务中,简单、快速的解决方案会更为有效。从研发者到用户,从企业到科技巨头,都在探索如何让小模型更智能,而不仅仅是简单的增大规模。
总之,苹果的 DCLM 系列小模型的发布,并不仅是技术上的一次突破,更是对未来 AI 模型研发方向的一次重要启示。未来的小模型有望在特定任务中发挥更大的作用,为 AI 的发展带来新的契机和可能性。