共计 1877 个字符,预计需要花费 5 分钟才能阅读完成。
2024 年,AI 技术发展迅猛,特别是在语音领域表现尤为突出。在过去的一年里,根据 a16z 的统计,超过 30 家与 AI 语音技术相关的创业公司获得了融资。作为行业的翘楚,AI 语音生成平台 ElevenLabs 在 2024 年 1 月 31 日成功融资 1.8 亿美元,估值达到了 30 亿美元。
这股融资热潮促进了技术的快速演进,特别是语音模型的种类和性能有了显著提升,使用成本也显著降低。值得一提的是,语音合成(TTS)能力的提高及其实际应用正在不断成熟,这一切随着 2024 年 4 月 OpenAI 发布实时语音功能而愈加明显。
在 2023 年下半年,AI Tuber 市场引起了广泛讨论。当时,需要注意的是,虽然 AITuber 具备许多优点,但 AI 生成语音的机械感仍是它的一大短板。当观众因为某些精彩瞬间与 AITuber 产生情感连接时,机械化的声音很容易使他们出戏。这个问题在营销和客服等场景中表现得尤为突出,缺乏情感往往会影响用户与 AI 的互动质量。所以,如何在语音生成中有效控制语气和感情,成为了在 2024 年一个重要的优化方向。
目前,绝大多数语音生成模型都基于经情感标注的真人语音数据进行训练,这让模型能够在一定程度上掌握不同情绪的语音表现。此外,在生成语音之前,大模型会先分析输入内容(无论是文本还是语音)中的情感线索,并相应调整输出的语音参数,以体现出特定的情感。
在使用 AI 语音技术时,许多生成工具也允许用户手动调整语音参数,或者直接标注情感类型,帮助语音模型产生更加符合预期的情感输出。得益于这些技术进步,市场上涌现出大量应用于 B 端和 C 端的 AI 语音产品。
有业内专家预测,2025 年将成为 AI 语音真正具备情感的元年。各大公司也开始推出新的语音模型。为了验证现有 AI 语音产品在情感表达上的能力,我们设计了一个小测试,选择了《甄嬛传》中的经典台词,看看 ElevenLabs、豆包、海螺语音和 Fineshare 这四款 AI 语音生成产品,能否再现其中表达“高兴”、“愤怒”和“悲伤”这三种情感的片段。
测试方法很简单:我们让四款产品分别根据这些台词或原音频生成语音,随后由测试者进行评分。为了消除主观因素,我们让 ChatGPT 做基准测试,然后邀请编辑团队的五名同事为每款产品打分。评分标准是:原版为 10 分,6 分为及格线(不合格统一记作 5 分)。在每个场景中,每款产品必须获得超过 6 分的评分才能算通过测试,并计算出平均分。
如果产品支持情感标注,相关情绪将被标注,但未手动调整语音参数(例如稳定性、音调和声色),这些手动调整也可能会影响 AI 复刻语音的表现。
下面来看看具体的测试结果。首先在“高兴”情绪的测试中,选用了“开心果”淳儿说的一段台词:“菀姐姐待淳儿真好,听说皇上特别喜欢姐姐,下午看到送赏赐的人,一拨拨忙慌慌的,就知道这话是真的了。”在这段测试中,四款产品中只有 ElevenLabs 未能通过,而海螺语音以平均 6.83 分名列第一,豆包和 Fineshare 的得分均为 6.5 分。尽管有三款产品通过了测试,从测试者的反馈中看,生成的语音确实能听出开心的语调,但仍能明显辨别出是 AI 合成的。
在“悲伤”的测试中,我们选择了甄嬛与敬妃提及陇月公主抚养权时的经典场景。台词是:“你知道吗?我宫里一共有三百二十六块砖石,可是这每一块,我都抚摸过无数遍了,其中还有三十一块已经出现了细碎的裂纹,否则我将如何度过这漫漫长夜呢?”在此测试中,只有海螺语音能在音调和语速上体现出悲伤的情感,其余产品的表现则显得平淡,语调几乎没有变化,可能因为台词内容较为隐晦,导致这些模型难以捕捉悲伤的情绪。
最后,在“愤怒”场景的测试中,甄嬛在“滴血验亲”中愤怒告发熹贵妃的台词:“臣妾要告发熹贵妃私通,秽乱后宫,罪不容诛!”这一结果则出乎意料,海螺语音在这一场景中的表现也未能达标,几乎所有产品都未体现出愤怒的情绪。
总结来看,此次测试的结果显示,尽管甄嬛传中的情感表达内容相对隐晦且复杂,AI 理解上确实存在一定难度。由于我们全部使用中文进行测试,这也让像 ElevenLabs 这样的国外产品面临了不公平的挑战。如果进行更细致的参数调整,或许能够进一步提升产品性能。
由于在悲伤场景中表现出色的海螺语音,出台了手动参数调整以获得更好效果。在试过 10 多版后,我们的调整虽让效果有所提高,但测试者们仍然能明显分辨出是 AI。最宽容的评价也就相当于一个不专业的配音演员。基于此,我们可以发现,针对情感表达比较直白的片段,某些模型的表现尚可,但在遇到情绪表达不太明显的情况下,AI 的表现仍显得不足。或许不久的将来,我们能够看到 AI 在情感表达方面的进一步突破。