共计 1274 个字符,预计需要花费 4 分钟才能阅读完成。
谷歌推出了全新一代 AI 推理优化型芯片 TPU v7,代号“Ironwood”,专为深度学习推理任务设计。该芯片继承了谷歌在 AI 领域的技术积累,不仅性能大幅提升,还具备强大的扩展能力。
TPU v7 的单芯片 FP8 峰值算力达到了惊人的 4614 TFlops,相较于 2017 年的第二代 TPU,性能增幅超过 3600 倍;即使与 2023 年的第五代 TPU 相比,也实现了约 10 倍的性能飞跃。而当其以最高配置部署时,整个集群可容纳多达 9216 颗液冷芯片,整体峰值算力更是达到了 42.5 ExaFlops,即每秒完成 42500000000000000000 次浮点运算。这一成绩使它超越了当前全球顶级超级计算机“El Capitan”的算力,成为新的行业标杆。
谷歌指出,随着 AI 技术的发展,从单纯的信息反馈模式向自主生成见解的方向转变已成为必然趋势。在这一背景下,推理型 AI 模型逐渐兴起,这类模型需要能够快速检索和处理海量数据,并以协作方式输出结论而非原始数据。为了满足这种需求,芯片必须兼顾超强计算能力和高效通信机制,同时确保软硬件之间的无缝协作。
TPU v7 的设计理念正是围绕这些目标展开的。首先,在执行大规模矩阵运算时,它尽量减少了数据在芯片内部的迁移过程,从而降低了延迟时间。其次,TPU v7 的高带宽显存(HBM)容量高达 192GB,较前一代增长了六倍,同时单颗芯片的内存带宽也跃升至 7.2 TBps,相当于上一代的四倍半。此外,TPU v7 系统内的芯片间互联网络(ICI)表现出色,支持全集群范围内的高效同步通信,其双向带宽达到了 1.2 Tbps,较上一代提升了 50%。与此同时,该芯片的能耗效率同样令人印象深刻,每瓦性能指标是上一代产品的两倍。
软硬协同创新
除了硬件层面的进步,TPU v7 在软件优化方面也做出了诸多改进。例如,它配备了增强版 SparseCore,这是一种专门针对超大规模嵌入数据流进行高效处理的数据流处理器。另外,TPU v7 兼容 Google DeepMind 研发的机器学习运行环境 Pathways,使得多台芯片间的分布式计算更加流畅。
谷歌计划在未来将 TPU v7 集成至谷歌云的 AI 高性能计算平台,以支持包括推荐算法、Gemini 模型及 AlphaFold 在内的多种应用场景。
市场反响热烈
TPU v7 的问世引发了广泛关注,尤其是科技社区对此表现出了浓厚的兴趣。许多网友纷纷留言表示,若谷歌能够以更具竞争力的价格提供 AI 推理服务,那么英伟达现有的市场份额可能会受到冲击。甚至有用户直接向各大 AI 助手提问,希望了解 TPU v7 与英伟达 B200 的具体对比情况。
从初步对比结果来看,TPU v7 的 FP8 算力略高于 B200 的 4.5 PFlops,而内存带宽则稍逊于后者。尽管如此,两者仍属于同一级别的竞争者。
值得注意的是,除了谷歌外,其他科技巨头也在积极布局自研 AI 推理芯片领域。比如亚马逊推出的 Trainium、Inferentia 以及 Graviton 系列芯片早已在市场上占据一席之地;而微软的 MAIA 100 芯片亦可通过 Azure 云平台获得。由此可见,AI 芯片市场的竞争态势正变得愈发激烈。