AI语音能传达情感吗？

81次阅读

共计 1877 个字符，预计需要花费 5 分钟才能阅读完成。

2024 年，AI 技术发展迅猛，特别是在语音领域表现尤为突出。在过去的一年里，根据 a16z 的统计，超过 30 家与 AI 语音技术相关的创业公司获得了融资。作为行业的翘楚，AI 语音生成平台 ElevenLabs 在 2024 年 1 月 31 日成功融资 1.8 亿美元，估值达到了 30 亿美元。

这股融资热潮促进了技术的快速演进，特别是语音模型的种类和性能有了显著提升，使用成本也显著降低。值得一提的是，语音合成（TTS）能力的提高及其实际应用正在不断成熟，这一切随着 2024 年 4 月 OpenAI 发布实时语音功能而愈加明显。

在 2023 年下半年，AI Tuber 市场引起了广泛讨论。当时，需要注意的是，虽然 AITuber 具备许多优点，但 AI 生成语音的机械感仍是它的一大短板。当观众因为某些精彩瞬间与 AITuber 产生情感连接时，机械化的声音很容易使他们出戏。这个问题在营销和客服等场景中表现得尤为突出，缺乏情感往往会影响用户与 AI 的互动质量。所以，如何在语音生成中有效控制语气和感情，成为了在 2024 年一个重要的优化方向。

目前，绝大多数语音生成模型都基于经情感标注的真人语音数据进行训练，这让模型能够在一定程度上掌握不同情绪的语音表现。此外，在生成语音之前，大模型会先分析输入内容（无论是文本还是语音）中的情感线索，并相应调整输出的语音参数，以体现出特定的情感。

在使用 AI 语音技术时，许多生成工具也允许用户手动调整语音参数，或者直接标注情感类型，帮助语音模型产生更加符合预期的情感输出。得益于这些技术进步，市场上涌现出大量应用于 B 端和 C 端的 AI 语音产品。

有业内专家预测，2025 年将成为 AI 语音真正具备情感的元年。各大公司也开始推出新的语音模型。为了验证现有 AI 语音产品在情感表达上的能力，我们设计了一个小测试，选择了《甄嬛传》中的经典台词，看看 ElevenLabs、豆包、海螺语音和 Fineshare 这四款 AI 语音生成产品，能否再现其中表达“高兴”、“愤怒”和“悲伤”这三种情感的片段。

测试方法很简单：我们让四款产品分别根据这些台词或原音频生成语音，随后由测试者进行评分。为了消除主观因素，我们让 ChatGPT 做基准测试，然后邀请编辑团队的五名同事为每款产品打分。评分标准是：原版为 10 分，6 分为及格线（不合格统一记作 5 分）。在每个场景中，每款产品必须获得超过 6 分的评分才能算通过测试，并计算出平均分。

如果产品支持情感标注，相关情绪将被标注，但未手动调整语音参数（例如稳定性、音调和声色），这些手动调整也可能会影响 AI 复刻语音的表现。

下面来看看具体的测试结果。首先在“高兴”情绪的测试中，选用了“开心果”淳儿说的一段台词：“菀姐姐待淳儿真好，听说皇上特别喜欢姐姐，下午看到送赏赐的人，一拨拨忙慌慌的，就知道这话是真的了。”在这段测试中，四款产品中只有 ElevenLabs 未能通过，而海螺语音以平均 6.83 分名列第一，豆包和 Fineshare 的得分均为 6.5 分。尽管有三款产品通过了测试，从测试者的反馈中看，生成的语音确实能听出开心的语调，但仍能明显辨别出是 AI 合成的。

在“悲伤”的测试中，我们选择了甄嬛与敬妃提及陇月公主抚养权时的经典场景。台词是：“你知道吗？我宫里一共有三百二十六块砖石，可是这每一块，我都抚摸过无数遍了，其中还有三十一块已经出现了细碎的裂纹，否则我将如何度过这漫漫长夜呢？”在此测试中，只有海螺语音能在音调和语速上体现出悲伤的情感，其余产品的表现则显得平淡，语调几乎没有变化，可能因为台词内容较为隐晦，导致这些模型难以捕捉悲伤的情绪。

最后，在“愤怒”场景的测试中，甄嬛在“滴血验亲”中愤怒告发熹贵妃的台词：“臣妾要告发熹贵妃私通，秽乱后宫，罪不容诛！”这一结果则出乎意料，海螺语音在这一场景中的表现也未能达标，几乎所有产品都未体现出愤怒的情绪。

总结来看，此次测试的结果显示，尽管甄嬛传中的情感表达内容相对隐晦且复杂，AI 理解上确实存在一定难度。由于我们全部使用中文进行测试，这也让像 ElevenLabs 这样的国外产品面临了不公平的挑战。如果进行更细致的参数调整，或许能够进一步提升产品性能。

由于在悲伤场景中表现出色的海螺语音，出台了手动参数调整以获得更好效果。在试过 10 多版后，我们的调整虽让效果有所提高，但测试者们仍然能明显分辨出是 AI。最宽容的评价也就相当于一个不专业的配音演员。基于此，我们可以发现，针对情感表达比较直白的片段，某些模型的表现尚可，但在遇到情绪表达不太明显的情况下，AI 的表现仍显得不足。或许不久的将来，我们能够看到 AI 在情感表达方面的进一步突破。

正文完