OpenAI新语音功能火热上线，Google却显得黯然失色

66次阅读

共计 2303 个字符，预计需要花费 6 分钟才能阅读完成。

今天真是 AI 界久违的一天热闹！就在大家刚忙着讨论奥特曼发的那篇 AI 小作文时，他的真正意图已逐渐浮现。原来，奥特曼的瞄准目标是宿敌 Google，特别是他们最新更新的两款 Gemini 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

他的方式直接又粗暴，毫不掩饰地宣布，备受期待的 GPT 语音功能今天正式开放！不到两个小时，便抢走了 Google 的风头。要是我是 Google，估计都得气得爆血压。

OpenAI 表示，ChatGPT 的高级语音模式（Advanced Voice Mode）将在本周内逐步向所有 Plus 和团队用户推出。在人们耐心等待的同时，团队也在不断完善功能，新增自定义指令、记忆功能、五种新声音，并优化了口音。OpenAI 甚至特别提到，这项新功能能用 50 多种语言说出“抱歉，我迟到了”。

还放了个示例，切换至普通话的对话：“奶奶对不起，我迟到了。我不是故意让您等这么久的，我可以怎么补偿您呢？”这算是把 GPT 推到奶奶辈，硬逼我原谅他呀。

在视频中，语音模式以一个跳动的蓝色球体呈现，而不是 OpenAI 在 5 月展示技术时的黑色动画点。获得访问权限时，应用内会弹出提示，首先是 Plus 和 Teams 用户开启，接下来会扩展到企业和教育用户。

此外，ChatGPT 还增加了五种新语音供用户体验：Arbor、Maple、Sol、Spruce 和 Vale。加上之前的 Breeze、Juniper、Cove 和 Ember，ChatGPT 的语音总数已达到 9 种（相比之下，Google 的 Gemini Live 语音数量为 10 种）。这些名字灵感来自大自然，像“枫树”、“微风”，或许是为了让使用体验更加自然。

在这次更新中，OpenAI 还将一些定制功能扩展到高级语音模式，比如允许用户定义回应的“自定义指令”功能，以及让 ChatGPT 记住对话的记忆功能。比如，在系统设置中输入“我的名字是夏洛特，我住在旧金山湾区”，系统随后会以“夏洛特”称呼用户，并提供有关本地天气和交通的建议。

团队表示，他们改进了部分外国用户的响应速度、流畅性和口音，语音还会根据交谈语气进行调整，实现更自然的对话。然而，之前展示的多模态功能此次并未更新，目前尚无多模态功能的时间表，此外高级语音模式暂时不对欧盟、英国等地区开放。

尽管如此，能够亲自体验 OpenAI 版的“Her”，对那些在 AI 圈已是审美疲劳的人来说，的确是一件值得兴奋的事。

至于 Google，虽然在 AI 界发布的新闻并不逊色，他们也发布了两个新的生产级 Gemini 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。这次更新对开发者来说也是一份重磅消息。

这种所谓的“生产级”就是意味着 AI 模型经过充分开发、测试和优化，准备好商业化部署，能处理大量用户请求，而不只是用于实验或研究。新模型的主要亮点包括：

价格大幅降低：1.5 Pro 的输入和输出价格下降约 50%！
整体质量改进： 在数学、代码生成、长文本和视觉任务上的性能提升显著。
速率限制提高：1.5 Flash 和 1.5 Pro 的速率限制分别从每分钟 1000RPM 提升至 2000 RPM，开发者能更快速处理任务。
更快输出和更低延迟： 输出速度提升 2 倍，延迟降低 3 倍。
更简洁的响应风格： 响应长度缩短 5%-20% 并提高了许多话题的反应质量。
长上下文支持：1.5 Pro 的 200 万 token 长上下文窗口支持处理长文本和多模态任务。
新的过滤设置： 开发者可以根据需要自定义模型的安全设置。

开发者可以通过 Google AI Studio 和 Gemini API 免费访问这两个最新模型，尤其是对于大型组织和使用 Google Cloud 的客户更是好消息。

不过，在这次版本的发布后，不少普通用户对 Google 的表现表示失望，认为这甚至不算真正的“发布”。在 AI 圈内，开发者朋友们在讨论，很多人认为 Google 应该在这一场合中有更好的表现。Abacus.AI 的 CEO Bind Reddy 说：“OpenAI 发布了 o1，而 Google 不过是在 Gemini 1.5 上做了一些小修小补。”

尽管有部分开发者为 Google 辩护，指出这些功能对实际构建应用、降低成本是有帮助的，但总体上，大众的反响却反倒逊色。这些提升更针对开发者，但就普通用户而言，这样的更新似乎动力不足。

不少人指出，Gemini 的命名也较为糟糕，容易导致混淆。甚至有一篇文章提到，Gemini 在开发者心中逐渐被抛弃，面对 ChatGPT 的竞争时显得乏力。Google 面临的挑战是，它的技术调用对于开发者来说太复杂，相比之下，使用 OpenAI 的 API 简便得多，让人无法选择 Gemini。

此外，有调查显示，在使用 AI 应用的开发者中，仅有 2.6% 的用户表示他们最常使用 Gemini，超过 76% 的人依然选择了 GPT。此时，相较于 ChatGPT，Gemini 在开发者中的受欢迎程度低得令人失望。

Google 试图改善这种局面，包括回应对 Gemini 的批评、招募 OpenAI 的明星技术人员、合并部分重叠功能等。他们希望通过举办开发者活动提升 Gemini 的知名度。

然而，面对已根深蒂固的市场份额，Google 的反击之路显得异常艰难。AI Studio 的产品负责人表示，OpenAI 在 LLM API 方面领先于 Google，双方的市场竞争仍然相当激烈。

整件事情让人深感遗憾，大家本期待这家拥有强大实力的公司能给我们提供更出色的选择，却未能如愿以偿。

正文完

发表至：科技

2025-11-21

0

高通降价引发芯片市场波动，联发科面临挑战

DeepSeek赋能音乐平台：不只是搜歌，更是创作革命

工业新时代：以人为本的制造变革

前字节AI大将加盟生数科技任CEO，加速商业化进程

人工智能绘画：开启人人皆艺术家的新时代

OpenAI新语音功能火热上线，Google却显得黯然失色

1. GPT 高级语音功能正式开启，覆盖 50 多种语言

2. Google 的 Gemini 1.5 升级，价格减半

3. Gemini 的阴霾与用户失望

4. Google 的反击之路依旧艰难

斯坦福2023 AI报告解读：中国科研实力跃升与AI发展趋势

诺基亚意外复火，背后隐藏的商业秘密

大公司ChatGPT之战：人力与流程的变革

揭秘SpaceX如何颠覆传统航天的高成本模式

深圳独角兽云天励飞：AI与芯片的创新突破

iPhone 17 Slim曝光，苹果轻薄战略能否逆袭？

AI浪潮席卷职场：传统职业面临重塑

百奥几何完成新融资，推动生物制造智能化发展

揭秘中国公司一年2.5万亿研发费用去向

Ilya Sutskever创立SSI公司：聚焦安全超级智能的未来探索

字节跳动组织架构的底层逻辑：信息平权与网状协作

硅谷金融巨头SoFi系统性性丑闻曝光 CEO遭董事会罢免

初创企业生存法则：破解90%创业公司夭折的现金流密码

徕卡、蔡司、哈苏联名手机大战，谁真正实力派？

羊了个羊：爆火背后的流量秘密与盈利策略