深度解析DeepSeek与月之暗面在长上下文处理技术上的竞逐

7次阅读

共计 1129 个字符,预计需要花费 3 分钟才能阅读完成。

就在埃隆·马斯克公布其基于 20 万张 GPU 卡训练的 Grok3 模型的同一天,技术社区迎来了两条与‘大力出奇迹’截然不同的研究路径。这两项最新成果的作者名单中,出现了两位广为人知的名字:梁文锋与杨植麟。

2024 年 2 月 18 日,DeepSeek 和月之暗面几乎同时发布了关于长上下文处理的突破性研究。这两家公司的创始人分别以个人身份参与到各自团队的论文撰写中,标志着他们在技术探索上的深度参与。DeepSeek 发布的论文题为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,其提出的 NSA 架构在多项基准测试中展现了卓越性能。相较于传统全注意力机制,该架构不仅保持了同等甚至更高的准确性,还实现了高达 11.6 倍的速度提升,并显著降低了训练所需的计算资源。

Transformer 架构作为当前大模型发展的基石,其核心组件注意力机制虽强大,但也存在固有缺陷。尤其是当处理超长文本时,传统全注意力机制因需要遍历每个单词并与其余所有单词逐一比较,导致效率急剧下降。DeepSeek 通过引入三个关键模块解决了这一难题:首先是对输入序列进行语义压缩,即将文本分割成小组块,并通过位置编码确保信息完整性;其次是实施动态选择策略,依据重要性评分聚焦于最关键的词语;最后是采用滑动窗口技术维持上下文连贯性。这些创新共同构成了一个能够有效缩短处理时间并节约计算成本的高效框架。

与此同时,月之暗面也推出了名为 MoBA 的新型架构。MoBA 的核心理念在于将文本划分为固定大小的块,并通过门控网络筛选出与目标块关联度最高的若干块进行进一步分析。此外,该方案还融合了 FlashAttention 和 MoE 等先进技术,使其具备更强的灵活性和适应性。实验结果显示,在处理百万级别标记序列时,MoBA 相较传统全注意力机制提升了 6.5 倍以上的执行效率,而到了千万级别时这一差距扩大至 16 倍。

值得注意的是,此次‘撞车’并非首次。早在 R1 版本发布之际,Kimi 便公布了 K1.5 的技术文档,展示了其在强化学习领域的独特见解。尽管 Moonshot 在信息透明度方面略胜一筹,但 DeepSeek 凭借快速迭代迅速占据了舆论高地。值得一提的是,OpenAI 在其近期发表的一份关于推理能力的研究报告中特别提及了这两款产品,肯定了它们在特定应用场景下的优异表现。

尽管面临来自 DeepSeek 的强大压力,月之暗面并未退缩。相反,它选择加速推进自身开源计划,力求构建起一套更具竞争力的技术生态系统。据传,该公司内部已将追求最先进科技成果确立为核心目标之一。可以预见的是,未来双方围绕 MoBA 与 NSA 展开的新一轮较量或将再次掀起行业热潮。

正文完
 0