共计 2138 个字符,预计需要花费 6 分钟才能阅读完成。
在日常使用手机时,大家是否习惯借助语音助手呢?作为人工智能于日常生活里极为直观的应用,手机智能语音助手却总是以一种不尽如人意的姿态呈现。无论是外来的 Alexa、Google Assistant、Siri,还是国内的小爱、小度,因其智能程度与真正的“人类”存在较大差距,致使我们能在网络上看到诸多“戏耍”语音助手,使其陷入死锁循环的有趣场景。
其中,苹果的 Siri 堪称“人工智障”中的典型代表。形容 Siri 的“智能”程度,有句话很贴切:“甚至还不如联通的语音机器人”。毕竟联通的机器客服,只是在听到“机器人”关键词后播放语音回复,而苹果的 Siri 却能在成语接龙中自行进入无限循环。
从工作原理来讲,Siri 出现这样的“人工智障”表现也有其缘由:Siri 是手机语音助手中少数可选择不向苹果分享数据、甚至能仅在设备本地运行的语音助手。这种对用户信息隐私的处理方式,使得 Siri 或许成为了“发展最慢”的语音助手。Siri 的首个初始版本诞生于 2011 年 10 月,至今已逾 10 年。然而在部分功能方面,Siri 能实现的甚至不如一些国内公司的“后起之秀”。
不过,对于众多 Siri 用户而言,未来使用 Siri 的体验有望大幅提升,因为 Siri 即将迎来一次“史诗级”升级:以后使用 Siri 时,无需再喊“Hey Siri”,直接喊 Siri 即可。取消唤醒词难度如何呢?
说实话,取消“Hey”直接喊“Siri”并不能从根本上解决 Siri 不好用的问题。无论怎样缩减 Siri 的唤醒词,其能实现的功能依旧有限:依然无法用一句话让 Siri 控制两个不同的智能家电,不能阻止 Siri 用网页搜索结果回复复杂问题,也不能像 Google Assistant 或小爱同学那样帮忙自动接电话。
但从技术层面剖析,取消“Hey”直接喊“Siri”背后的技术挑战并不简单。可能有人觉得取消“Hey”没什么难度,甚至还能减少 Siri 识别用户语音所耗费的时间。若只是简单移除“Hey”,确实不难。但在此之前,还需考虑另一个关键问题:如何确保用户是真的想要唤醒语音助手?
若不太理解,那我们就得从语音助手唤醒词背后的选择条件说起。怎样的短语才算是一个“优质”的语音唤醒词呢?从产品角度看,除便于传播外,还得兼顾两个在一定程度上相互矛盾的因素:容易触发和不易误触。
先说说“容易触发”这一问题。顾名思义,语音助手的唤醒词必须易于触发,具体而言,就是要读起来顺口、不易读错,且不能过长,最好能让用户在一句话中一口气说完唤醒词和语音指令。
但另一方面,唤醒词也不能过短,更不能是日常生活中的高频常用词。试想一下,如果 Siri 的触发词是“Hey”,高频误触只会让 Siri 变得更难用。更关键的是,触发词必须具备“排他性”,即当用户说出“触发词”时,只能触发语音助手。亚马逊的 Alexa 就是语音助手在误触方面的典型例子:由于亚马逊语音助手 Alexa 名字过于常见,且智能设备触发灵敏度过高,这些设备会对日常生活中所有的“Alexa”做出响应,甚至会被电影电视剧中包含 Alexa 的台词唤醒。这便是从唤醒词中去掉“Hey”背后的技术难点:修改唤醒词容易,然而缩短唤醒词后避免语音助手误触,并非易事。
当然,有人认为语音助手误触无关紧要,毕竟只是手机上的操作,划掉悬浮球就行。但事实并非如此,语音助手触发词背后还潜藏着更深远的问题:智能助手的边界究竟该在哪里?
在各企业的设想中,智能助手宛如一个贴心的“管家”,在智能家居品牌中尤为明显:作为用户的我们只需开口,家里的电器就会自动运行。倘若大家看过 TikTok 上关于“智能生活”的设想,想必对此类生活并不陌生。
但实际上,还依赖语音交互的智能家居已属智能家居 2.0 时代的“过时产物”。在智能家居 3.0 中,智能助手无需语音指令,就能在幕后“观察”用户状态并“主动出击”调整智能家居设置。在智能家居体系里,这个特性被称为“无感化”,即用户无需给出实质性指令(语音、文字或机械开关),智能家居系统就能依据用户实际状况主动响应。
在技术成熟的情况下,一个出色的智能家居系统能够主动识别用户的真实场景。但对于部分注重个人隐私的用户来说,这种时刻被机器、算法甚至屏幕背后的人观察的生活,他们一刻也无法忍受。这种体验从好的方面看是“无感化”,但从另一面看,仿佛置身于“黑镜”之中,如同鱼缸里的“人类生活观察样本”。
以此次话题核心的 Hey Siri 为例:既然能用 Siri 直接唤醒 Siri,这至少意味着两件事:其一,手机时刻在录音,以响应语音唤醒;其二,手机录音后还会进行处理,理解我说的话的含义,知晓我何时想唤醒 Siri,何时只是说话提及。
与其他智能助手不同的是,Siri 在此保持着高度“克制”。即便 Siri 能做到上述两件事,但其设备端处理机制确保录音数据仅保存在手机本地,不会上传至其他服务器(飞行模式可证明);此外,本地数据也存储在硬件加密设备中。
从 iPhone 4S 的长按触发 Siri,到后来的语音触发 Siri,再到手表的“抬腕”唤醒以及未来的“免 Hey 直接 Siri”,可以预见智能语音助手必将朝着“无感化”进一步发展。至于未来的语音助手能否坚守功能与隐私的界限,以及绝大多数用户是否担心自己被“大数据”掌控,魅族的“三零手机”的市场反馈已给出了答案。