谷歌Gemini 2.5 Pro I/O版强势登场,全面碾压Claude 3.7

26次阅读

共计 791 个字符,预计需要花费 2 分钟才能阅读完成。

谷歌最强编程模型 Gemini 2.5 Pro I/ O 版发布

北京时间 5 月 6 日晚,谷歌 DeepMind AI 研究部门正式推出了 Gemini 2.5 Pro 的升级版本“I/O”特别版。这一版本旨在回应开发者对实际编程和界面设计效能的需求,为用户提供更强大的编程能力。

在最新的 WebDev Arena Leaderboard 基准测试中,Gemini 2.5 Pro I/ O 版以 1419.95 分的成绩一举超越 Claude 3.7 Sonnet 的 1357.10 分,成功登顶 AI 编程榜首。相比之前的 03-25 版本,这次的新模型在多项任务上都取得了显著进步。

新模型的定价与 Gemini 2.5 Pro 保持一致,每百万 token 输入和输出费用仅为 1.25 美元和 10 美元,相较于 Claude 3.7 Sonnet 更具性价比。

编程能力大幅提升

据谷歌博客介绍,Gemini 2.5 Pro I/ O 版在函数调用功能、错误率以及触发可靠性等方面都有显著改进。特别是在代码转换任务上,新模型的表现尤为出色。它能够根据单条文本提示生成完整的交互式网页应用或模拟程序,极大降低了设计导向型开发者的入门门槛。

此外,新模型在视频理解方面的表现同样令人印象深刻。在 VideoMME 基准测试中,它获得了 84.8% 的高分,位居榜首。这使得 Gemini 2.5 Pro I/ O 版不仅限于文本处理,还能高效地理解和操作视频内容。

迈向实用生产力工具

谷歌 DeepMind CEO 戴密斯·哈萨比斯表示,这款模型是他迄今为止构建的最强编程模型。新模型的应用场景非常广泛,比如它可以自动统一视觉元素的风格匹配,将 YouTube 视频转化为学习应用,并快速生成响应式视频播放器等组件。

尽管谷歌尚未公开 Gemini 2.5 Pro 的具体架构细节,但可以肯定的是,这款模型正在从研究性创新向解决实际编程挑战的生产力工具转变。此次提前发布表明谷歌希望在重大会议之前满足开发者的期待,继续保持市场竞争力。

正文完
 0