苹果为何选择谷歌TPU训练AI?

21次阅读

共计 1471 个字符,预计需要花费 4 分钟才能阅读完成。

苹果的 Apple Intelligence 引发关注

最近,Apple Intelligence 的发布成为科技界的热话。尽管苹果在 iOS 18.1 beta 1 中推出的 Apple Intelligence 功能与一个多月前的完整版相比并不完整,但所带来的新功能还是令人期待。比如,写作工具、通话录音及新设计的 Siri 等。

其中,写作工具支持重写、专业化、简略等多种功能,可以用于聊天、社交媒体发布以及文本写作等场景。而通话录音不仅能够记录通话内容,甚至还能自动转录成文本,让用户方便回顾。

Siri 也进行了一次升级,尽管当前更新还只是设计上,包括全新的跑马灯特效和键盘输入支持。

苹果为何选择谷歌 TPU 进行训练

更引人注目的是,在一篇名为《Apple Intelligence Foundation Language Models》的论文中,苹果透露他们并没有使用流行的英伟达 H100 等 GPU,而是选择了谷歌的 TPU 来训练 Apple Intelligence 的基础模型。

Apple Intelligence 可以分成三层:一层是运行在苹果设备本地的端侧 AI,另一层是基于“私有云计算”技术在苹果自有数据中心运行的云端 AI,最后一层则是接入第三方云端大模型,比如 GPT-4o。

根据苹果的论文,他们在 TPUv4 和 TPUv5p 集群上训练了两个基础模型。第一个是设备端模型 AFM-on-device,参数规模为 3 亿,使用 2048 块 TPUv5p 训练生成,直接运行在苹果设备上。而第二个是参数规模更大的服务器端模型 AFM-server,使用 8192 块 TPUv4 芯片训练,最终由苹果的数据中心运作。

谷歌 TPU 的优势

有趣的是,虽然谷歌的 TPU 并不如英伟达 GPU 那样家喻户晓,但实际上它们是专为机器学习和深度学习设计的。TPU 提供出色的性能优势,尤其在处理大型模型训练任务时表现搽亮。

例如,TPUv4 的每个芯片可提供高达 275 TFLOPS 的峰值算力,通过高速互连器将 4096 个 TPUv4 芯片连接成大规模 TPU 超级计算机,从而实现巨大的计算规模。此外,不止是苹果,很多的大模型公司也在使用谷歌的 TPU 进行大规模训练。以 Anthropic 公司为例,他们的 Claude 模型就是在谷歌 TPU 集群上训练的。

除了 Anthropic,谷歌的 Gemini 模型也是依赖自研 TPU 芯片进行训练,通过处理大量文本数据,TPU 的强大计算能力使其训练速度更快,性能显著提升。

英伟达与谷歌的芯片竞争

值得注意的是,英伟达在近期发布了其最新一代 GPU 架构 Blackwell,但谷歌也发布了其新一代 TPU——Trillium TPU。这场硬件的竞争,实际上已经存在多年,早在 2016 年谷歌就开始研发 TPU。

英伟达的 H100 GPU 是目前主流市场上受欢迎的选择,提供高达 80GB 内存,并且在深度学习和推理任务中的效率极高。相比之下,TPUv5e 在性价比上更具优势,对中小规模模型训练尤为适合,支持分布式计算和优化能耗。

为什么苹果选择谷歌 TPU

总的来讲,谷歌 TPU 以性能、成本和生态优势,成为苹果在大规模 AI 模型训练中的理想选择。TPU 在处理分布式训练时,高效且低延迟的计算能力帮助苹果满足了 AI 模型训练的需求。通过谷歌云平台,苹果降低了硬件投资,同时更好地管理计算资源,优化其 AI 开发成本。

此外,谷歌的 AI 生态系统提供了大量开发工具,如 TensorFlow,帮助苹果更高效地开发和部署 AI 模型。特别是最近加入苹果的 Sumit Gupta,他在谷歌的 AI 基础设施团队工作,对谷歌 TPU 的优势十分了解,他的加入将为苹果的 AI 项目提供进一步的支持。

正文完
 0