共计 2303 个字符,预计需要花费 6 分钟才能阅读完成。
今天真是 AI 界久违的一天热闹!就在大家刚忙着讨论奥特曼发的那篇 AI 小作文时,他的真正意图已逐渐浮现。原来,奥特曼的瞄准目标是宿敌 Google,特别是他们最新更新的两款 Gemini 模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。
他的方式直接又粗暴,毫不掩饰地宣布,备受期待的 GPT 语音功能今天正式开放!不到两个小时,便抢走了 Google 的风头。要是我是 Google,估计都得气得爆血压。
1. GPT 高级语音功能正式开启,覆盖 50 多种语言
OpenAI 表示,ChatGPT 的高级语音模式(Advanced Voice Mode)将在本周内逐步向所有 Plus 和团队用户推出。在人们耐心等待的同时,团队也在不断完善功能,新增自定义指令、记忆功能、五种新声音,并优化了口音。OpenAI 甚至特别提到,这项新功能能用 50 多种语言说出“抱歉,我迟到了”。
还放了个示例,切换至普通话的对话:“奶奶对不起,我迟到了。我不是故意让您等这么久的,我可以怎么补偿您呢?”这算是把 GPT 推到奶奶辈,硬逼我原谅他呀。
在视频中,语音模式以一个跳动的蓝色球体呈现,而不是 OpenAI 在 5 月展示技术时的黑色动画点。获得访问权限时,应用内会弹出提示,首先是 Plus 和 Teams 用户开启,接下来会扩展到企业和教育用户。
此外,ChatGPT 还增加了五种新语音供用户体验:Arbor、Maple、Sol、Spruce 和 Vale。加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 的语音总数已达到 9 种(相比之下,Google 的 Gemini Live 语音数量为 10 种)。这些名字灵感来自大自然,像“枫树”、“微风”,或许是为了让使用体验更加自然。
在这次更新中,OpenAI 还将一些定制功能扩展到高级语音模式,比如允许用户定义回应的“自定义指令”功能,以及让 ChatGPT 记住对话的记忆功能。比如,在系统设置中输入“我的名字是夏洛特,我住在旧金山湾区”,系统随后会以“夏洛特”称呼用户,并提供有关本地天气和交通的建议。
团队表示,他们改进了部分外国用户的响应速度、流畅性和口音,语音还会根据交谈语气进行调整,实现更自然的对话。然而,之前展示的多模态功能此次并未更新,目前尚无多模态功能的时间表,此外高级语音模式暂时不对欧盟、英国等地区开放。
尽管如此,能够亲自体验 OpenAI 版的“Her”,对那些在 AI 圈已是审美疲劳的人来说,的确是一件值得兴奋的事。
2. Google 的 Gemini 1.5 升级,价格减半
至于 Google,虽然在 AI 界发布的新闻并不逊色,他们也发布了两个新的生产级 Gemini 模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。这次更新对开发者来说也是一份重磅消息。
这种所谓的“生产级”就是意味着 AI 模型经过充分开发、测试和优化,准备好商业化部署,能处理大量用户请求,而不只是用于实验或研究。新模型的主要亮点包括:
- 价格大幅降低:1.5 Pro 的输入和输出价格下降约 50%!
- 整体质量改进: 在数学、代码生成、长文本和视觉任务上的性能提升显著。
- 速率限制提高:1.5 Flash 和 1.5 Pro 的速率限制分别从每分钟 1000RPM 提升至 2000 RPM,开发者能更快速处理任务。
- 更快输出和更低延迟: 输出速度提升 2 倍,延迟降低 3 倍。
- 更简洁的响应风格: 响应长度缩短 5%-20% 并提高了许多话题的反应质量。
- 长上下文支持:1.5 Pro 的 200 万 token 长上下文窗口支持处理长文本和多模态任务。
- 新的过滤设置: 开发者可以根据需要自定义模型的安全设置。
开发者可以通过 Google AI Studio 和 Gemini API 免费访问这两个最新模型,尤其是对于大型组织和使用 Google Cloud 的客户更是好消息。
3. Gemini 的阴霾与用户失望
不过,在这次版本的发布后,不少普通用户对 Google 的表现表示失望,认为这甚至不算真正的“发布”。在 AI 圈内,开发者朋友们在讨论,很多人认为 Google 应该在这一场合中有更好的表现。Abacus.AI 的 CEO Bind Reddy 说:“OpenAI 发布了 o1,而 Google 不过是在 Gemini 1.5 上做了一些小修小补。”
尽管有部分开发者为 Google 辩护,指出这些功能对实际构建应用、降低成本是有帮助的,但总体上,大众的反响却反倒逊色。这些提升更针对开发者,但就普通用户而言,这样的更新似乎动力不足。
不少人指出,Gemini 的命名也较为糟糕,容易导致混淆。甚至有一篇文章提到,Gemini 在开发者心中逐渐被抛弃,面对 ChatGPT 的竞争时显得乏力。Google 面临的挑战是,它的技术调用对于开发者来说太复杂,相比之下,使用 OpenAI 的 API 简便得多,让人无法选择 Gemini。
此外,有调查显示,在使用 AI 应用的开发者中,仅有 2.6% 的用户表示他们最常使用 Gemini,超过 76% 的人依然选择了 GPT。此时,相较于 ChatGPT,Gemini 在开发者中的受欢迎程度低得令人失望。
4. Google 的反击之路依旧艰难
Google 试图改善这种局面,包括回应对 Gemini 的批评、招募 OpenAI 的明星技术人员、合并部分重叠功能等。他们希望通过举办开发者活动提升 Gemini 的知名度。
然而,面对已根深蒂固的市场份额,Google 的反击之路显得异常艰难。AI Studio 的产品负责人表示,OpenAI 在 LLM API 方面领先于 Google,双方的市场竞争仍然相当激烈。
整件事情让人深感遗憾,大家本期待这家拥有强大实力的公司能给我们提供更出色的选择,却未能如愿以偿。