DPU崛起:计算领域的新变革

4次阅读

共计 3592 个字符,预计需要花费 9 分钟才能阅读完成。

曾经,计算机如同大脑般重要的是 CPU。计算机内部存储的数据、外围设备及其他组件,要么向 CPU 输入数据,要么听从 CPU 的指令。

后来,GPU 问世,旨在减轻 CPU 在图像处理方面的压力。然而,凭借出色的并行处理能力,如今的 GPU 已不局限于图像渲染,还广泛应用于人工智能、深度学习、大数据分析等领域。

当下,随着核心网、汇聚网迈向 100G、200G,接入网也达到 50G、100G,CPU 已无法提供足够算力处理数据包,“性能带宽增速比失调”问题凸显。AWS 形象地将其称为“数据中心税”—— 在业务程序运行前,接入网络数据便会占用大量计算资源。

例如,在云计算场景下,虚拟机之间的数据转发,通常 20 个 VM 所需算力,若用 Xeon 的多核 CPU 处理,大约需要 5 个核的算力,这是一笔不小的开销。

阿里云弹性计算产品线负责人张献涛曾算过一笔账,若阿里云营收规模达上百亿元,存储、网络占用约 10% 的 CPU 资源,意味着年损失 10 多亿元。

于是,为进一步减轻 CPU 负担,DPU 登上舞台。对于 CPU 处理效率低下且 GPU 也无法处理的负载,可卸载到专用的 DPU 进行处理。

DPU 的概念由英伟达带火。2020 年上半年,英伟达以 69 亿美元收购以色列网络芯片公司 Mellanox Technologies,并于同年推出 BlueField-2 DPU,拉开了 DPU 发展的序幕。

英伟达首席执行官黄仁勋表示:“DPU 将是未来计算的三大支柱之一。CPU 用于通用计算、GPU 用于加速计算,而 DPU 在数据中心移动数据并进行处理。”

DPU 竞争开启

DPU 最早在云计算领域落地,许多云服务商早意识到问题。AWS 自 2015 年便开始探索 DPU 发展,收购芯片厂商 Annapurna Labs,推出 Nitro 芯片。尽管当时尚无“DPU”这一名称,但 Nitro 被公认为是 DPU 的早期形态。2017 年,AWS 正式推出 Nitro,将网络、存储和安全任务卸载到基于 Arm 架构的专用设备上。

同年,为解决云计算业务规模扩大带来的资源争抢、算力损失问题,阿里云推出神龙(X-Dragon),通过虚拟化实现转接 CPU 存储、网络等基础功能。很快,阿里云将天猫双十一作为试验场并成功运营,随后上汽成为第一家神龙架构的试验客户。

回顾往昔,2017 年可称为 DPU 元年。三年后英伟达将其命名为 DPU,才有了统一叫法。目前,真正实现大规模商用 DPU 架构的,全球仅有亚马逊的 AWS 和阿里云两家。

在云服务商中,不止亚马逊与阿里云布局 DPU,同样看重云服务的腾讯云也加入研发。腾讯以统一算力底座、降低总体成本为目标,自研了水杉和银杉两代 DPU。目前,腾讯自研 DPU 已支撑公有云外部客户以及微信、QQ、腾讯会议等自研业务上云。

去年加入云计算的字节跳动也宣布将自研 DPU,计划通过火山引擎云产品对外服务。

在云厂商的激烈竞争下,芯片厂商也有所行动。

当初带火 DPU 的英伟达自然有所部署。英伟达计划在 2022 年推出性能更强的 BlueField3;到 2022 年,计划推出第三代 DPU;2024 年推出集成其 GPU 模块的 BlueField4。

Marvell 最新推出的 OCTEON 10 系列 DPU,采用 Armv9 架构的 Neoverse N2 CPU 内核和台积电 5nm 制程工艺,支持最新的 PCIe 5.0 I/ O 与 DDR5 内存。作为 DPU 的重要补充,Marvell 还为 OCTEON 10 引入内部机器学习 (ML) 引擎。如此一来,Marvell 正成为英伟达的直接竞争对手。

英特尔也参与其中,在 2021 年 6 月发布首款 IPU 产品,将其视为云战略的重要支柱之一,助力数据中心网络加速走向可编程的分布式架构。2022 年 4 月,英特尔公布收购云解决方案公司 Granulate 的协议,以提升自身在云计算系统的综合协调性;2022 年 5 月,英特尔发布第二代 IPU,并公布将在 2023—2024 年间上线第三代 IPU 的消息。基于端到端可编程能力,英特尔不断在“云端”实现高效运算,解锁数据中心基础设施的新潜力。

国内 DPU 初创企业

DPU 赛道上逐渐出现中国企业身影,且随着 DPU 风口渐起成功融到资金。目前,国内较受关注的 DPU 初创企业有云豹智能、中科驭数、芯启源、云脉芯联、星云智联、大禹智芯等。

今年 6 月,大禹智芯宣布完成 A 轮融资,融资金额未公布,该轮融资由前海方舟旗下的智慧互联产业基金、中原前海基金和齐鲁前海基金共同投资,融资资金将用于产品研发和推广。

云豹智能同样在 6 月完成 B 轮融资,据悉本轮云豹投后估值约 90 亿元,投资方包括腾讯、淡马锡、深创投、华西村股份旗下投资平台一村资本、民生银行上市金融控股平台民银资本、耀途资本,这是腾讯第 3 次投资这家成立不到 2 年的 DPU 公司。

9 月,中科驭数宣布完成超以往轮次融资规模的数亿元 B 轮融资,由金融街资本领投,建设银行旗下建信股权跟投,老股东灵均投资、光环资本、泉宗资本连续三轮追投。

芯启源在去年 11 月完成数亿元的 Pre-A4 轮融资后,今年 3 月宣布再获超亿元战略投资,本轮融资由国家集成电路产业基金旗下子基金上海超越摩尔领投,老股东允泰资本继续坚定跟投。

可见,在 DPU 热潮下,不少初创企业纷纷获得巨额融资。但作为数据处理的关键力量,DPU 需要与 CPU、GPU 同量级的投入,然而市场规模远不及 CPU、GPU。据统计,2021 年全球 DPU 市场规模达 50.7 亿美元,CPU 市场规模则可达 532 亿美元,相差达 10 倍之多。

有业内人士估算,在终端场景,大芯片销量至少需达到数千万级别才能有效摊薄一次性研发成本;在数据中心场景,则需要 50 万甚至 100 万以上的销量,才能有效摊薄研发成本。

根据海外做 DPU 的初创公司如 Fungible 和 Pensando 等所需的资深开发人员规模、研发时间、需购买的 IP 和测试工具以及融资金额估算,开发这样复杂的高端通用 DPU 芯片,大概需要 3 亿美元以上成本,才能实现客户量产。

这注定 DPU 并非简单的创业项目。

DeepTech 曾总结打造成功的 DPU 芯片企业至少需具备六大条件:一是拥有高端芯片开发经验;二是具备大量商业落地经验;三是有成功创业经验的团队;四是熟悉云计算客户业务;五是与云计算大厂客户紧密合作,有丰富场景实战经验;六是必须有巨额融资。

从创始人经历看,不少初创公司或缺乏高端芯片开发经验,或缺乏与头部云服务商合作的经验等,能否走到最后仍是未知数。

云豹智能创始人萧启阳博士毕业于美国斯坦福大学,后在硅谷创办 RMI 公司;中科驭数创始人鄢贵海有中科院背景;芯启源创始人卢笙有销售 USB 和 TCAM 芯片的背景;大禹智芯创始人李爽是前美团公有云负责人,对云业务有一定了解,这四家公司创始人都有相关背景。

云脉芯联、星云智联等企业创始人在公开资料中,缺乏开发高端芯片和创业经验。云脉芯联创始人刘永锋技术出身,曾在阿里和华为工作,公开信息未查到其开发高端芯片和创业经验;星云智联两位创始人是夏庐生和于勇。夏庐生曾任安信证券研究中心通信行业首席分析师,公开信息查不到于勇在芯片行业的背景。

即便强如英伟达,其 DPU 发布两年左右,使用人数也不多,更何况中国芯片初创企业在芯片方面发展相对薄弱。目前能取得成绩的仅有中科驭数、云豹智能两家企业。

中科驭数成立仅一年后,第一颗芯片就成功完成流片,实现业界数据库与时序数据处理融合加速芯片零的突破。中科驭数第三代 DPU 芯片研发迭代也接近尾声。中科驭数第二代 DPU 芯片 K2 已于今年年初投片,预计 10 月回片。

云豹的第一款 DPU SoC(系统级芯片)正在开发阶段,计划明年量产。去年底云豹已发布基于 FPGA 版本的 DPU 云霄。

与 CPU、GPU 等一样,DPU 结构复杂、开发周期长、投入大。中国 DPU 初创企业起步于 2020 年和 2021 年,算上前期团队组建时间,开发周期仅约 1 年左右,何时能量产产品是市场期待的。

总结

实际上,梳理中国 DPU 行业商业模式,可分为两种。

一种是以芯启源为代表,通过自研中高级软件、外购处理器和网络芯片的方式,这种方式门槛适中,DPU 产线核心研发团队至少需 10 人,预计 5 至 8 年收回前期成本。

另一种是以中科驭数和云豹为代表,自研处理器微架构和中高级软件,外购网络芯片的方式,这种方式门槛较高,DPU 产线核心研发团队至少需 40 人。

DPU 没有统一标准、需与云计算基础设施紧密绑定、产品通用性存问题、无明确大客户,这些都是 DPU 创业会遇到的问题。

目前要解决 DPU 标准化应用,存在一定挑战。由于数据中心本身复杂,各大厂商一方面采用商用现货组件(即 COTS)构建系统以追求低成本,一方面又设法分层服务化,打造面向不同类型客户的标准化产品,但除此之外的所有技术实现几乎都是“八仙过海,各显神通”。

中科驭数创始人鄢贵海也表示:“有的厂商强化 IO 能力、有的关注路由转发、有的重视存储卸载、有的关注安全加密,各不相同。”而上层负载不同,对底层架构需求也各异,这或许是目前 DPU 标准化面临的最大挑战。

正文完
 0