GPT-4o高级语音功能爆火:多样玩法与情感交互体验

17次阅读

共计 920 个字符,预计需要花费 3 分钟才能阅读完成。

上线短短一天,GPT-4o 的高级语音功能便引发了广泛关注,许多用户纷纷尝试各种脑洞大开的测试。无论是复杂的任务执行还是情感化表达,GPT-4o 均表现出色,令人印象深刻。

其中一位用户尝试用中文让 GPT-4o 讲故事,尽管整体叙述较为流畅,但语速稍显缓慢,个别发音如“气”被读成“kì”,显示出仍有优化空间。不过,这一功能已足够引起众多用户的兴趣。

情感化互动

更令人惊讶的是,GPT-4o 在朗读美国女诗人 Emily Dickinson 作品时竟流露出情感,甚至带上了哭腔,令不少听众感到震撼。这种接近人类情感的表达方式,无疑增强了人机交互的真实感。

此外,还有用户测试了 GPT-4o 快速数数的能力,从 1 数到 100 的过程中,尽管起初未能完全满足需求,但在多次调整后,AI 成功完成了任务。同时,GPT-4o 模仿动物叫声的技能同样让人眼前一亮,比如学猫叫时的生动表现,进一步展示了其趣味性。

多语言实时翻译

值得一提的是,GPT-4o 在多语言支持上的表现尤为突出。用户可以随意切换不同语言,包括乌尔都语、希伯来语、挪威语、摩洛哥达利加语、阿姆哈拉语、匈牙利语、格鲁吉亚语以及克林贡语等冷门语言,同时还能进行实时翻译,极大提升了跨文化交流的便利性。例如,对于不懂日语却想玩日文游戏的玩家来说,只需简单输入指令,GPT-4o 就能瞬间化身翻译助手。

专家观点

沃顿商学院教授 Ethan Mollick 对 GPT-4o 的高级语音功能给出了高度评价,认为它不仅与 OpenAI 早期展示的效果相当,而且具备生成更多音频内容的能力,但目前仍存在一定限制。他还提到,这种自然且拟人化的语音交互方式,彻底改变了人们与 AI 沟通的方式,尽管其基础模型并未发生根本变化。

相比 ChatGPT 的传统语音处理流程,GPT-4o 的优势在于其多模态能力,能够直接完成语音到文字再到语音的全流程,省去了多个中间环节,从而显著缩短了交互时间。此外,GPT-4o 还能敏锐捕捉用户语音中的情绪波动,如悲伤、兴奋等,进一步提升了用户体验。

随着越来越多的用户分享自己的测试成果,大家对 GPT-4o 高级语音功能的兴趣愈发浓厚,纷纷呼吁 OpenAI 尽快开放更多使用机会。未来,这一技术或许还能解锁更多创新应用场景,值得期待。

正文完
 0