谷歌发布Gemini大模型，剑指GPT-4

237次阅读

共计 3249 个字符，预计需要花费 9 分钟才能阅读完成。

美国时间 12 月 6 日早间，备受外界期待的谷歌大语言模型 Gemini 正式对外发布。谷歌首席执行官皮查伊表示，Gemini 1.0 是谷歌目前能力最强的通用人工智能模型，是通往 Gemini 模型时代的第一步。

当天发布的 Gemini 1.0 共分为 Ultra、Pro 和 Nano 三个版本。其中，Ultra 能力最强、复杂度最高，能处理最困难的任务；Pro 能力稍弱，可处理多任务；Nano 更注重端侧处理能力。目前，谷歌旗下基于大语言模型对标 ChatGPT 的人工智能语言对话机器人 Bard 已启用 Gemini Pro 作为底层大模型驱动，能实现比过去由 Palm 大模型驱动更高级的推理、规划、理解等能力，且继续免费。谷歌预计明年初推出“Bard Advanced”，计划使用 Gemini 最强版本 Ultra。

谷歌在发布博客文章中称，对 Gemini 模型进行了严格测试，并评估了它们在各种任务中的表现。从自然图像、音频和视频理解到数学推理等任务，Gemini Ultra 在 32 个学术基准测试集中，有 30 个测试集的性能超过当前 SOTA 结果。此外，Gemini Ultra 在 MMLU（大规模多任务语言理解数据集）中的得分率高达 90.0%，首次超越人类专家。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试大模型的知识储备和解决问题能力。

针对 MMLU 测试集的新方法，使 Gemini 能在回答难题前利用推理能力更仔细思考，相比仅根据问题第一印象作答，表现有显著改进。谷歌还公布了 Gemini 与 OpenAI 目前最强的大语言模型 GPT- 4 在各方面能力的对比结果。显示在文本处理方面，除 MMLU 得分 90% 超过 GPT- 4 的 86.4% 外，Gemini Ultra 在推理、数学、代码等方面能力的得分均高于 GPT-4。在多模态方面，Gemini 在图像、视频、音频等各方面全面超越 GPT- 4 的能力。

谷歌首席科学家、人工智能负责人 Jeff Dean 称，Gemini 模型在多模态模型推理能力方面已达到惊人程度。例如，当用户给一份有学生手写的计算滑雪者滑到山下速度的解题内容提示后，Gemini 能读懂题目并指出正确解答方法。Dean 表示，多模态模型能力在教育方面体现出的各种可能性就让人兴奋，且能在许多不同领域发挥巨大作用。

在模型架构方面，Gemini 采用 Transformer 架构，运用高效的 Attention 机制，支持 32k 的上下文长度。当天发布中，谷歌未透露 Gemini Ultra 和 Gemini Pro 的具体参数大小，仅明确规模最小的 Gemini Nano 的参数分别为 18 亿（Nano-1）和 32.5 亿（Nano-2）。目前外界传言 Gemini Ultra 的参数规模达万亿级别，训练动用的算力是 GPT- 4 的 5 倍以上。

在当天同时发布的 Gemini 技术报告中，谷歌称，Gemini 的训练动用了大规模的 TPU 资源，使用 TPU-v5e 和 TPU v4 进行训练，训练使用了跨多个数据中心的大量 TPU v4，这印证了 Gemini 的训练参数规模庞大，此前谷歌的 PaLM 的训练参数规模为 3400 亿。

谷歌 Gemini 的首个“杀手锏”，是其“原生的多模态”特性。与目前主流的其他多模态模型不同，大多数主流多模态模型是通过训练不同组件，最终拼接在一起实现“多模态”。这种“拼接”的多模态模型虽能完成一些特定任务，如图像识别，但在更复杂的多模态任务上可能力不从心。而谷歌原生多模态的 Gemini，从预训练就用不同模态进行，并不断微调。谷歌表示，这样的训练方法有助于让 Gemini 从头开始无缝理解和推理各种输入，远远优于现有多模态模型，且其功能在几乎每个领域都是最先进的。

Gemini 的第二大“杀手锏”，是使用自家设计的、针对人工智能训练进行优化的 Tensor Processing Units(TPUs) 的 v4 和 v5e。谷歌称，将其 TPU 设计为最稳定、可扩展以及最有效率的服务。目前 Gemini 在 TPU 上运行，比过去规模更小、能力更小的模型运行速度更快。这些定制的 AI 加速器是谷歌 AI 产品驱动面向数十亿用户的搜索、Youtube、Gmail、谷歌地图等服务的核心，也让企业能够以更优的成本效率方式训练大规模 AI 模型。当天，谷歌还宣布了目前为止最强大、最高效、可扩展的 TPU 系统 —Cloud TPU v5p，专为训练尖端的人工智能模型而设计。新一代 TPU 将加速 Gemini 的发展，帮助开发人员和企业客户更快地训练大规模生成式 AI 模型，让新产品和新功能更快地与客户见面。

谷歌 Gemini 的第三大“杀手锏”，是与谷歌旗下生态的融合。除发布 Gemini 外，谷歌当天强调，Gemini 将通过谷歌产品推向数十亿用户。最早上线的是与 ChatGPT 直接对标的谷歌人工智能语言助手 Bard，目前 Bard 由 Gemini Pro 微调版本驱动，谷歌表示这是 Bard 推出以来最大的升级。谷歌还考虑到端上直接运行大模型，当天同步推出的 Gemini Nano 版本就是针对此推出的适用于移动端的大语言模型版本，谷歌旗下的 Pixel 8 将是第一款直接在端上运行 Gemini 的智能手机。此外，谷歌还计划在未来逐步将 Gemini 的底层人工智能能力推向旗下全线产品，包括核心业务广告、搜索、Chrome 浏览器等。谷歌称，目前已经在试验用 Gemini 驱动的搜索，已让 Serach Generative Experience (SGE) 在美国英语搜索的延迟降低了 40%，并提高搜索质量。

谷歌当天发布 Gemini 让外界有些意外。今年 5 月谷歌开发者大会上，谷歌高调宣布下一代大语言模型 Gemini，引发外界巨大期待。原计划 12 月正式发布，但上周有消息称谷歌将推迟至明年 1 月，理由是“在某些非英语任务方面的表现不佳”，这引发外界对谷歌在 Gemini 研发方面遇到困难和阻力的猜想。或许是迫于外界压力和期待，谷歌最终在 12 月 6 日按原计划发布了 Gemini。

Gemini 一经推出，便引发业内外广泛关注和讨论，焦点集中在 Gemini 所公布的模型能力对 GPT- 4 的全面超越。有人在社交媒体上评论称，谷歌的 Gemini 和 OpenAI 的 GPT- 4 正拼得头破血流。

自从 ChatGPT 在去年底诞生以来 1 年多时间，行业内掀起以生成式人工智能为核心的热潮。ChatGPT 背后公司 OpenAI 成为领军公司，其与微软的深度合作，让原先在人工智能领域处于突出地位的谷歌危机感十足。为对抗 OpenAI 和微软联盟，谷歌内部迅速调整，包括将旗下人工智能部门与谷歌大脑部门合并，集中优势资源进行大模型领域研发以及旗下产品应用的全面升级。

当天 Gemini 的发布，博客文章署名人是谷歌首席执行官皮查伊和 Deep Mind 创始人兼首席执行官 Demis Hassabis，且在 Gemini 的详细介绍说明部分，是 Hassabis 单独署名，可见 Gemini 的研发工作主要由 Deep Mind 主导。谷歌旗下的 Deep Mind，正是当年推出震惊世界、在围棋界击败人类知名选手的 Alpha Go 的背后公司。

前不久，OpenAI 经历“董事会内乱”，首席执行官 Sam Altman 突遭董事会罢免，但最终迅速回归。经此意外后，OpenAI 的未来发展萌生许多新不确定性，这给了包括谷歌在内其他行业内竞争者更多追赶时间和机会。当天谷歌发布的 Gemini，特意将很多项能力直接与 OpenAI 的 GPT- 4 进行逐一对比，彰显了谷歌与 OpenAI 在大语言模型领域的竞争已进入白热化程度。

毫无疑问，OpenAI 方面也在密切关注谷歌动作并做出相应应对。上个月 OpenAI 首个开发者大会上，OpenAI 已公布一系列更新，包括 GPT- 4 模型的升级版、将打造专属 GPT 的能力赋予每个用户的功能、未来开放 GPT 应用商店等。OpenAI 目前的开放重点在于下一代 GPT- 5 上，由于谷歌的 Gemini 已在很多能力上显示出对 GPT- 4 的全面超越，外界对 GPT- 5 也增加了更多期待。

正文完