共计 1362 个字符,预计需要花费 4 分钟才能阅读完成。
在 DeepSeek 开源周的第一天,一项名为 FlashMLA 的重大成果公开亮相,它直接突破了 H800 的计算上限,引发了众多网友的惊叹。
FlashMLA 是专门为 Hopper GPU 开发的高效 MLA 解码内核,针对可变长度序列进行了优化,并且已经投入生产应用。这里的 MLA,正是 DeepSeek 所提出的创新注意力架构。从 V2 版本开始,MLA 就使得 DeepSeek 在系列模型中实现了成本的大幅降低,同时在计算和推理性能方面仍能与顶尖模型保持持平。
根据官方介绍,当使用 FlashMLA 之后,H800 能够达到 3000GB/ s 的内存,实现 580TFLOPS 的计算性能。这一成果赢得了网友们的纷纷点赞,大家向工程团队致以崇高的敬意,称赞其从 Hopper 的张量核中充分挖掘出了每一个 FLOP,认为这是将 LLM 服务推向新前沿的有效方式。
目前,GitHub 页面已经更新了相关内容。仅仅在短短一小时内,Star 星数就已经超过了 1.2k。此次发布的 FlashMLA 支持 BF16,具备分页 KV 缓存,块大小为 64。其快速启动的环境要求为:需要 Hopper GPU,CUDA 12.3 及以上版本,PyTorch 2.0 及以上版本。
FlashMLA 的灵感来源于 FlashAttention 2&3 和英伟达 CUTLASS 项目。FlashAttention 能够实现快速且内存高效的精确注意力,主流大模型大多都在使用。最新的第三代 FlashAttention,可以让 H100 利用率飙升至 75%,训练速度提升 1.5 – 2 倍,在 FP16 下计算吞吐量高达 740TFLOPs/s,达到理论最大吞吐量的 75%,相比之前只能做到 35%,能更充分地利用计算资源。其核心作者是 Tri Dao,这位来自普林斯顿的大牛,同时也是 Together AI 的首席科学家。而英伟达 CUTLASS 是 CUDA C++ 模板抽象的集合,用于在 CUDA 内实现高性能矩阵 – 矩阵乘法 (GEMM) 和所有级别和规模的相关计算。
MLA 作为 DeepSeek 系列模型的基本架构,是一种多头潜在注意力机制,旨在优化 Transformer 模型的推理效率与内存使用,同时保持模型性能。它通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。这种方法在长序列处理中尤为重要,因为传统方法需要存储完整的 KV 矩阵,而 MLA 通过压缩仅保留关键信息。
在 V2 版本中,这一创新性架构把显存占用降到了过去最常用的 MHA 架构的 5% – 13%,实现了成本的大幅降低。它的推理成本仅为 Llama 370B 的 1 /7、GPT – 4 Turbo 的 1 /70。而在 V3 版本,这一降本提速的效果更为明显,直接让 DeepSeek 吸引了全球的目光。就在今天,DeepSeek – R1 在 HuggingFace 上获得了超过 10000 个赞,成为该平台近 150 万个模型之中最受欢迎的大模型,HuggingFace CEO 还发文公布了这一喜讯。
FlashMLA 的出现,无疑为深度学习领域带来了新的活力和发展方向。它的开源,让更多的开发者能够受益于其先进的技术,有望推动整个行业在模型性能和成本控制方面取得新的突破。随着技术的不断发展和完善,我们有理由期待它在未来能够发挥更大的作用,为人工智能的进步贡献更多的力量。