共计 2271 个字符,预计需要花费 6 分钟才能阅读完成。
5 月 7 日,谷歌 DeepMind 的人工智能团队发布了 Gemini 2.5 Pro I/O,这是继今年 3 月发布 Gemini 2.5 Pro 后的又一次重大升级。DeepMind 的首席执行官德米斯·哈萨比斯直言不讳地表示,这将是他们迄今为止打造的最强大的编程模型。
从谷歌公布的初步测试结果来看,哈萨比斯并没有言过其实。自 2022 年末 ChatGPT 掀起生成式 AI 热潮以来,谷歌终于在代码生成的关键评估指标上全面领先于其他竞争者。
更强的 Gemini 2.5 Pro I/O
这次更新的模型被命名为“Gemini-2.5-pro-preview-05-06”,取代了之前的 03-25 版本。目前,该模型已经面向 Google AI Studio 的独立开发者、Vertex AI 云平台的企业用户以及 Gemini 应用的普通用户开放。谷歌在其博客中提到,此模型还支持 Gemini 移动应用中的 Canvas 等功能。
Gemini 2.5 Pro I/ O 已经在许多开发场景中得到广泛应用,比如自动匹配用户界面组件的视觉风格,或者将 YouTube 视频快速转换成互动学习应用,甚至创建带有动画的语音转写界面等复杂组件,几乎不需要手动编写 CSS。
作为一个专有模型,企业用户需要通过谷歌的云服务平台付费使用。然而,谷歌没有调整定价策略:使用 Gemini 2.5 Pro 的用户会自动切换到新模型,价格依然保持每百万输入 token 收费 1.25 美元,每百万输出 token 收费 10 美元,上下文窗口最大支持 20 万 token。
相比之下,Anthropic 的 Claude 3.7 Sonnet 的定价为每百万输入 token 收费 3 美元,每百万输出 token 收费 15 美元。
单条提示生成完整应用
谷歌此次更新的最大亮点之一是,只需要一条提示就能构建出完整的、可交互的网页应用或模拟程序,这正是 DeepMind 希望简化原型设计与开发流程的目标所在。
谷歌称,用户可以输入视觉样式或主题性提示,直接转化为可运行的代码,这极大地降低了设计导向型开发者或创新团队的入门门槛。
尽管谷歌尚未公开新版 Gemini 2.5 Pro 的底层架构和技术细节,但根据实际应用效果来看,其核心目标仍然是提供更加高效、直观的开发体验。
凭借其在代码生成与多模态输入上的优势,Gemini 2.5 Pro 不再是局限于技术实验室的研究模型,而是逐渐成为解决真实开发挑战的实用工具。此次提前发布也表明,DeepMind 有意借此回应市场需求,在 I / O 大会之前继续保持技术领先地位。
人类评审中的佼佼者
在第三方平台 WebDev Arena 的排行榜上,Gemini 2.5 Pro Preview(05-06)在生成美观且实用的网页应用方面获得了人类评审的最高分,超越了 Anthropic 的 Claude 3.7 Sonnet,位居榜首。
谷歌的新模型得分达到了 1499.95,远远超过 Sonnet 3.7 的 1377.10。而此前版本的 Gemini 2.5 Pro(03-25)则位列第三,得分为 1278.96,这意味着 I / O 版本实现了 221 分的巨大飞跃。
正如 AI 资深用户“Lisan al Gaib”在社交网络上指出的那样,即使是 OpenAI 最新推出的 GPT-4o(“o3”)也没能击败 Sonnet 3.7,由此可见 Gemini 2.5 Pro I/ O 所取得的重大进步。
Gemini 性能的提升主要体现在生成内容的可靠性、美观性和实用性等方面。
开发者的好评如潮
多位知名开发者和平台负责人对 Gemini 2.5 Pro Preview(05-06)在实际生产环境中的表现给予了高度评价。
Hyperbolic 联合创始人兼首席技术官尤辰·金写道:“Gemini 2.5 Pro Preview(05-06)现在已经成为我的首选编程模型。在多个高难度提示词测试中,它已经超过了 o3(GPT-4o)和 Claude 3.7 Sonnet。拿编写模拟水桶来回晃动水体效果的例子来说,它的表现完全碾压了其他两个模型。谷歌,这完全可以称之为 Gemini 3 了!”
AI 初创公司 Cognition 的联合创始人塞拉斯·阿尔贝蒂表示,Gemini 2.5 Pro 是第一个成功完成复杂后端路由系统重构的 AI 模型,展现了接近高级开发者的决策能力。
AI 编程工具 Cursor 的首席执行官迈克尔·特鲁尔指出,内部测试显示工具调用失败率明显下降,这是过去一直被诟病的问题。他认为用户将在真实开发环境中明显感受到新模型在实用性方面的提升。Cursor 已经将 Gemini 2.5 Pro 集成到了其编程智能体中,显示出开发者将其作为构建智能开发流程核心组件的趋势。
基于浏览器的云端协同开发平台 Replit 的总裁米歇尔·卡塔斯塔评论道,Gemini 2.5 Pro 是在性能与响应延迟之间取得最佳平衡的前沿模型。他的评价暗示,Replit 正考虑将其整合进自身的工具中,特别是那些对响应速度与稳定性要求较高的任务。
AI 教育工作者、BlueShell 私人 AI 聊天机器人创始人保罗·库弗特表示:“Gemini 2.5 Pro 在代码和界面生成方面的能力令人印象深刻。”
AI 艺术工具 EverArt 的首席执行官彼得罗·斯基拉诺指出,新版 Gemini 2.5 Pro I/ O 能够通过一个提示就生成互动模拟游戏,完美再现了“一只大猩猩大战一百人”的社交媒体梗。
X 用户的“RameshR”(@rezmeram)展示了一款由该模型在一分钟内生成的互动式俄罗斯方块风格拼图游戏,并附带真实音效,他在帖文中写道:“休闲游戏行业要完蛋了!!”
这些赞誉从不同角度验证了 Gemini 2.5 Pro 的实用性提升,也预示着它将在更多开发平台中得到广泛采用。