谷歌Gemini 2.0 Flash发布,AI智能体迎来新纪元

2次阅读

共计 4092 个字符,预计需要花费 11 分钟才能阅读完成。

Gemini 2.0 Flash 的横空出世,无疑是 AI 领域的一次重大变革。它的发布,如同在平静的湖面投下一颗巨石,瞬间激起千层浪,为整个行业带来了新的活力与挑战。

Gemini 2.0 Flash:性能卓越的新起点

Gemini 2.0 Flash 的诞生,标志着 Gemini 正式迈入 2.0 时代。从命名上看,它或许是新系列中的最小杯,但却有着不容小觑的实力。其性能不仅超越了上一代的 1.5 Pro,速度更是提升了一倍之多。在各项基准测试中,它的表现十分亮眼,完全超越了 o1-preview、o1-mini,仅次于 GPT-4o(2024-11-20)。

它还具备出色的多语言能力,能够原生调用谷歌搜索等工具,为用户提供更加便捷的服务。尤其是在编码方面,Gemini 2.0 Flash 表现卓越,在 SWE-bench Verified 基准上,直接击败了完整版 o1。

基于谷歌最受欢迎的 1.5 Flash,Gemini 2.0 Flash 在保持快速响应时间的同时,性能得到了进一步提升。它支持图像、视频和音频等多模态输入,还支持多模态输出,包括原生生成的图文混合内容和可调控的多语言文本转语音(Text-to-Speech,TTS)功能。此外,它还可以原生调用多种工具,如谷歌搜索、代码执行以及第三方用户自定义函数等。

虽然在长上下文、音频方面,2.0 Flash 的性能还有限,但这并不影响它成为一款强大的模型。目前,Gemini 2.0 Flash Experimental 已在 Google AI Studio 和 Vertex AI 平台上,通过 Gemini API 正式向开发者开放。多模态输入和文本输出功能均可使用,不过,文本转语音、原生图像生成功能现仅向首批合作伙伴开放。为支持开发者构建动态交互式应用,谷歌还同步推出了新的多模态实时 API,支持实时音频、视频流输入,并能够集成调用多种工具组合。对于普通用户来说,即日就可直接用上 2.0 Flash Experimental(网页端),移动端也将很快上线。另外,正式版模型将于 2025 年 1 月份推出,同时将提供更多模型规模选择。

开启智能体新纪元

Gemini 2.0 Flash 的问世,标志着 AI 交互进入了一个全新的阶段。它具备原生的用户交互界面能力,在多模态推理、长文本理解、复杂指令执行与规划组合式函数调用、原生工具调用以及更低的延迟等方面取得了多项技术突破,为用户带来了更加流畅、直观的 AI 交互智能体体验。

谷歌围绕 Gemini 2.0 打造了一系列智能体创新,涵盖通用 AI 助手 Project Astra、在浏览器中进行交互的智能体 Project Mariner、为开发者打造的 AI 代码智能体 Jules,以及游戏辅助智能体和机器人智能体等。

通用 AI 助手 Project Astra

今年 I / O 大会上首次亮相的 Project Astra,在视觉识别和语音交互上与 GPT-4o 不相上下。得到 Gemini 2.0 加持后,其能力在多个方面得到了显著提升。

在对话能力方面,Project Astra 不仅能够使用多种语言进行对话,还支持混合语言交谈,对口音和生僻词的理解也更加出色。通过 Gemini 2.0,它可以调用谷歌搜索、Lens 和地图功能,作为日常生活助手变得更加实用。同时,它的记忆能力也得到了增强,能够保持长达 10 分钟的对话记忆,并记住更多用户之前的对话内容,从而提供更加个性化的服务。借助新的流式处理能力和原生音频理解技术,其响应速度也得到了优化,可以以近乎人类对话的速度来理解语言。

谷歌还计划将这些功能引入 Gemini 应用等产品,并进一步扩展到智能眼镜等其他设备形式。在演示视频中,我们可以看到 Project Astra 的强大多模态能力。它可以读屏获取邮件中的门禁码,记住密码并指导开门操作;能够读取衣服上的洗涤标签并给出洗衣建议;还可以通过手机镜头查询洗衣机的操作方法;对于用户的各种问题,如地点介绍、单词发音、物品信息等,都能准确回答。此外,它的跨会话记忆能力也十分出色,即使在不同的会话中,也能记住之前的对话内容,流畅回答用户的问题。它的多语言能力也不容小觑,不仅英语流利,还能用法语和泰米尔语聊天。除了手机,它还能搭载在智能眼镜上,为用户提供便捷的服务。

能帮你完成复杂任务的 AI 智能体 Project Mariner

Project Mariner 是一个基于 Gemini 2.0 构建的早期「研究原型」,它从浏览器入手,探索人工智能与人类交互的未来。其核心能力在于卓越的信息理解和分析,能够全面感知浏览器屏幕上的各种信息,如像素级精准识别,以及对网页元素(如文本、代码、图像、表单等)进行智能分析。

在演示中,我们可以看到它强大的任务执行能力。例如,在打开一个在线谷歌表格后,输入提示「记住这份公司的名单,然后,找到他们的网站,并查找我可以联系到他们的邮箱。记住这些方便我日后使用」,它就能准确读取表格中的内容,通过搜索逐一找到各公司的官网,并获取邮箱地址。在右侧对话栏中,我们还可以清晰看到它的推理过程。

在业界权威的 WebVoyager 基准测试中,Project Mariner 取得了惊人的成绩。作为单一 AI 智能体系统,它在真实网络任务的端到端测试中,成功率高达 83.5%。这意味着 AI 已经能够相对准确地模仿人类在互联网上完成任务的行为。此外,Project Mariner 最大的亮点是其严格的安全设计,用户始终可以保持对系统的控制。其操作权限仅限当前浏览器的标签页,而且仅能执行一些基本操作,如输入、滚动、点击等。若在执行购物等敏感操作之前,必须获得用户的最终确认。尽管仍处于早期研究阶段,但它证明了智能体在浏览器中导航的可能性,其意义远远超过了技术本身。虽然目前在完成任务时可能存在准确度不足和速度较慢的问题,但随着技术的迭代,这些问题将很快得到改善。

面向开发者的 AI 智能体 Jules

随着 AI 代码助手的迅速发展,它已从基础的代码搜索工具进化为深度融入开发者工作流程的智能助手。在评测真实软件工程任务的基准 SWE-bench Verified 中,搭载了代码执行工具的 2.0 Flash 已经可以取得 51.8% 的优异成绩。得益于 2.0 Flash 超群的推理速度,智能体 Jules 能够快速生成和评估数百个潜在解决方案,并通过现有单元测试和 Gemini 自身的判断,筛选出最优方案。

Jules 可以异步工作并与 GitHub 工作流程集成,当开发者专注于真正想要构建的内容时,它会处理 bug 修复和其他耗时的任务。它会制定全面的多步骤计划来解决问题,高效地修改多个文件,甚至准备拉取请求(pull request)直接将修复合并回 GitHub。从谷歌内部的使用经验来看,Jules 可以为开发者带来诸多便利,如更高的生产力、进度跟踪以及完全的开发者控制等。开发者可以把问题和编程任务交给 Jules,实现高效的异步编程;通过实时更新随时了解情况,优先处理最需要关注的任务;还可以审查 Jules 制定的计划,根据需要提供反馈或请求调整,并在合适的时候将 Jules 编写的代码合并到项目当中。

游戏、机器人 AI 智能体

谷歌 DeepMind 一直致力于通过游戏来提升 AI 模型在规则遵循、策略规划和逻辑推理方面的能力。就在上周,能够仅从一张图片就创造出无限种可玩 3D 世界的 Genie 2 诞生。秉承这一研究传统,谷歌基于 Gemini 2.0 开发了新的 AI 智能体,能够协助玩家在视频游戏的虚拟世界中探索。

这些「游戏助手」智能体可以单纯依靠观察屏幕上的动作来理解游戏机制,并通过实时对话为玩家提供下一步行动的建议。此外,它们还能通过接入谷歌搜索,帮助玩家获取网络上海量的游戏攻略和相关知识。目前,谷歌正与 Supercell 等顶尖游戏开发商展开合作,深入研究这些 AI 智能体的运作机制,并在不同类型的游戏中测试它们理解游戏规则和应对挑战的能力,涵盖从《部落冲突》等策略游戏到《Hay Day》等农场模拟游戏。

除了游戏领域,谷歌还在机器人领域进行创新性研究,将 Gemini 2.0 强大的空间推理能力应用其中,开发能在现实世界中提供实际帮助的 AI 智能体。在 demo 中,我们可以看到 Gemini 2.0 在游戏中的强大潜力。例如,研究者对 Gemini 2.0 说:「我打算玩游戏了,我想确保完成每周的任务。你能看到它们吗?」Gemini 2.0 立刻回答,「是的,我能看见,看起来你需要收集 300 颗宝石,击败 10 个 boss,你已经有 10 个宝石了。」因为研究者表示自己经常忘记这件事,Gemini 2.0 承诺会在游戏过程中留意,提醒她关于任务的事。在另一个 demo 中,研究者表示在计划进行一次攻击,但首先需要训练一支军队,请 AI 帮他推荐一下军队构成。Gemini 立刻给出了非常明智的建议:「根据屏幕左上角你的可用部队和数量,我们应该训练巨人、野蛮人、弓箭手和法师的组合。重点是使用巨人来吸收伤害,法师可以对付高输出防御设施,野蛮人和弓箭手可以处理较弱的建筑。」另外,Gemini 2.0 还能自己查攻略,比如帮我们选角色,完成「在 Reddit 上搜索一下 Donetta 是什么」这样的任务。

深度研究,个人研究助理来了

在智能体方面,谷歌还推出了一个名为 Deep Research 的研究助理,并在 Gemini Advanced 中上线。不过,这项新功能由 Gemini 1.5 Pro 加持。它可以深入研究复杂的主题,创建报告,并提供相关来源的链接。

假设你想要完成一篇机器学术论文,主题是关于自动驾驶传感器的研究趋势,直接使用 Deep Research。它便会列出一项研究计划清单,包含了 6 个要点的信息查找、分析网址、创建报告,点击「开始研究」。接下来,AI 全网搜索分析,并汇总出一份全面详细的研究报告,包括清晰的表格分析、搜索的 62 个网址来源。有了 Deep Research,能为我们节省大量的研究时间。

Gemini 2.0 Flash 的发布,为 AI 智能体的发展开辟了新的道路。它的强大性能和创新应用,将推动 AI 技术在各个领域的广泛应用和深入发展。未来,我们有理由期待更多基于 Gemini 2.0 的精彩创新,为我们的生活和工作带来更多的便利和惊喜。

正文完
 0