共计 2337 个字符,预计需要花费 6 分钟才能阅读完成。
互联战争:英伟达面临的新局面
在科技界,英伟达一直以其强大的 GPU 和专业的互联技术占据领导地位,尤其是在高性能计算和 AI 训练方面。然而,近期却出现了不小的变数。日前,微软与 OpenAI 宣布合作,将投入上千亿美元建设超级数据中心,旨在实现前所未有的算力规模。这一消息本应让英伟达欣喜,但事实却出人意料:OpenAI 选择拒绝采用英伟达的 InfiniBand 网络设备,转而拥抱以太网技术。这一选择,无疑对英伟达的行业布局带来了冲击。
众所周知,数据中心的核心基础设施就是网络互联技术。InfiniBand 和以太网作为当前主流方案,在连接数以千计的服务器方面扮演着关键角色。英伟达作为 InfiniBand 的主要推动者,长期以来提供了相关的交换机和硬件设备,而其他公司则在以太网赛道上激烈竞争。OpenAI 的“反水”,不仅是一个具体的订单变化,更是意味着 InfiniBand 在市场中的逐渐边缘化。
其实,InfiniBand 与以太网的竞争由来已久。2015 年时,超级计算机 Top500 排行榜中,超过一半的超级计算机都采用了 InfiniBand,彰显其在高性能计算领域的主导地位。然而,随着技术演进和市场变迁,这一局面开始动摇。去年 7 月,微软、AMD 等九家硅谷巨头联合成立了超以太网联盟(UEC),意在全面超越 InfiniBand。这一联盟的成立,标志着行业格局的加速变化。
英伟达去年第一季度的 InfiniBand 设备收入出现了环比下降,显示出市场对这项技术的接受度在逐渐减弱。更重要的是,行业内部出现了“派系之争”:究竟是继续坚持 InfiniBand 的创新极端路线,还是利用 RDMA 协议改良以太网,从而实现性能提升?这场“派别之争”或许决定了未来的核心竞争格局。
为什么 InfiniBand 曾被看好?最初,它是为解决当前算力瓶颈而设计的,尤其是数据传输速度。想象一下,两个服务器像两个高速公路上的车辆,如果传输速度慢,整个算力的潜力便无法充分发挥。InfiniBand 的出现,是为了打破这一瓶颈,犹如在高速公路上加建更宽、更快的专用车道。从而实现多台服务器间的高速数据交换,为超级计算机和大模型训练提供基础支持。
传统的网络协议——TCP/IP 存在本质缺陷:数据传输时大量占用 CPU 资源,导致延迟较高。如同在繁忙的交通路口设有人工收费站,车辆每次都要停下来缴费,造成严重堵塞。而 RDMA(远程直接内存访问)协议的出现,为了解决这个难题。它可以让数据绕过 CPU,直接在服务器内存间传输,极大提升效率。
对于 RDMA 网络协议,业界分为“外部革新派”和“内部改良派”。前者主张推倒重建一套崭新的网络协议,构建极致性能的 InfiniBand,而后者则倾向利用现有的以太网基础架构,通过技术改良实现性能突破。英伟达正是后者的代表,推出的 InfiniBand 方案,试图通过极端的性能优化,赢得市场青睐。
然而,激进的创新也意味着高投入和高成本。早在 2019 年,英伟达斥资 69 亿美元收购了唯一的 InfiniBand 方案提供商 Mellanox,这也是公司史上最大的收购案之一。之所以豪掷重金,是因为 InfiniBand 需要专用硬件,比如高端交换机和电缆,成本极其昂贵。从而,使用这套系统的企业,必须支付比普通以太网方案更高的建设与维护费用。
英伟达巧妙地将其性能优势变成了“捆绑销售”的策略——提供具有极限性能的硬件,同时套装出售专用的网络设备和配件,形成垄断优势。这种策略让很多企业在建设最新的数据中心时,面临高达 20% 的额外成本,远高于采用普通以太网方案的预算。
尽管英伟达一直强调 InfiniBand 的性能优势,用于 AI 和大模型训练可以快速实现“模型突破利润”,但随着技术的不断演进,这种优势开始逐渐缩小。今年,英伟达同时推出了支持 800 Gb/ s 吞吐的 InfiniBand 和以太网交换机,说明两者的性能差距在拉近。行业中出现了“内部改良派”的 RoCE v2 协议,既提升了以太网的性能,也让传统 InfiniBand 开始失去“独一无二”的地位。
更为明显的是,超以太网联盟在去年成立,目标是在 RoCE v2 基础上开发新协议,专为大模型场景优化,企图全面超越 InfiniBand。包括国内的字节跳动、阿里云、百度等,都加入了反英伟达的阵营。行业的“反叛者”们不断追赶,英伟达不得不逐渐减少在公开场合对 InfiniBand 的提及,将未来焦点投向更为普及的以太网平台。
在未来,互联技术的竞争将变得更加激烈。随着人工智能和大模型的飞速发展,数据传输速度、能效和整体经济性变得尤为关键。英伟达在这个赛场上,不能输。除了自家的 Spectrum X 以太网平台外,公司可能会进一步加码,以应对行业的变局和技术变革。
根据最新的市场报告,随着 AI 算力需求爆炸,交换机市场正以 50% 的速度扩大。巨大规模的 AI 模型如 GPT- 6 的训练,已成为电力消耗的“重灾区”。微软与 OpenAI 曾搭建由 10 万块 H100 芯片组成的超级集群,显示出数据中心极限已被不断推高,电力供应逐渐变成瓶颈。多地点分布式训练,成为应对算力和功耗双重压力的必要手段,也再次强调了互联的重要性。
可以说,在人工智能的浪潮中,互联已成为决定未来竞争成败的战场。英伟达的战略布局,是否能驾驭这场变革的浪潮,值得行业关注。而整个行业也在不断调整策略,从依赖单一技术,到布局多元方案,逐步形成一个更为开放和多样的生态。
总结来看,英伟达正处于一场前所未有的行业变局中。掌握核心互联技术,关系到未来几十年的技术格局和市场份额。围绕 InfiniBand 的创新与竞争,折射出高性能计算和 AI 发展背后的激烈博弈。这场“互联争霸”战役,或许才刚刚开始,但其影响已然深远,会带动整个行业迎来新的洗牌和升级。