DeepSeek-R1性能四月激增26倍,开源优化方案深度解析

22次阅读

共计 1216 个字符,预计需要花费 4 分钟才能阅读完成。

近期,由多家顶尖机构联合发起的研究团队发布了一份长达万字的技术报告,该团队仅用四个月便将 DeepSeek-R1 在 H100 硬件上的性能提升了 26 倍,这一成果引发了广泛关注。

DeepSeek-R1 的卓越表现得到了业内权威的认可。Hugging Face 联合创始人兼首席科学家 Thomas Wolf 评价称,DeepSeek 的问世标志着开源 AI 领域迎来了重要的里程碑,犹如 ChatGPT 对公众认知的颠覆性影响。

为了实现这一飞跃,研究团队对 DeepSeek 的推理系统进行了全方位的优化。他们首先升级了 SGLang 框架,新增了包括 PD 分离、大规模 EP、DeepEP、DeepGEMM 及 EPLB 在内的多项功能,为后续的模型复现奠定了坚实基础。

并行化设计

在优化过程中,研究团队聚焦于 DeepSeek 架构的核心组件,包括注意力层、稠密 FFN、稀疏 FFN 以及 LM 头,制定了针对性的并行化策略。

在注意力层的设计上,团队采用 DP attention 技术,旨在消除跨设备 KV 缓存的冗余数据,从而显著降低内存占用。该方法结合混合数据并行和张量并行,极大增强了处理小批量数据的能力。

稠密 FFN 部分则采用了数据并行(DP)策略,而非传统的张量并行(TP)。这一选择不仅提高了扩展性,还优化了内存使用效率,同时减少了通信开销。

针对稀疏 FFN,团队通过专家并行(EP)策略解决了内存瓶颈问题,但同时也面临通信模式不规则和负载分布不均等挑战。对此,他们借助 DeepEP 框架实现了高效管理。

在 LM 头的优化中,团队同样选择了数据并行策略,与稠密 FFN 处理方式保持一致,从而有效减少了内存消耗并简化了跨设备通信流程。

预填充与解码分离

为了进一步提升性能,研究团队在 SGLang 中引入了预填充与解码分离(PD)技术。这一技术通过预填充服务器和解码服务器的协作,实现了两个阶段的高效交错执行。

具体而言,解码服务器提前分配好 KV 缓存后,通知预填充服务器开始计算,完成后数据再传输给解码服务器完成迭代生成。此外,非阻塞传输、基于 RDMA 的高效数据传输以及灵活的 API 集成等特性,共同构成了这套优化方案。

大规模专家并行与负载均衡

DeepEP 框架提供了两种调度模式:标准调度模式和低延迟调度模式,前者侧重于最大化计算吞吐量,后者则追求最低延迟。SGLang 通过自动模式动态切换这两种调度方式,以适应不同阶段的需求。

为解决 EP 引起的负载不均衡问题,团队开发了专家并行负载均衡器(EPLB),通过对专家分布进行统计分析,实现最佳排列组合,从而显著改善了工作负载的均衡性。

评估与展望

通过一系列严格的端到端性能评估,研究团队验证了优化措施的有效性。结果显示,在预填充阶段,系统单节点吞吐量可达每秒 57,674 个 token;解码阶段则达到了 22,282 个 token/ 秒。

尽管取得了显著进展,但项目仍面临一些挑战,如首 token 时间较长、序列长度受限等问题,未来还需进一步探索延迟优化和更灵活的张量并行配置。

正文完
 0