AI的未来:还能讲多久的故事?

14次阅读

共计 2894 个字符,预计需要花费 8 分钟才能阅读完成。

今年年初,我向我的父母展示了一款面向普通用户的 AI 产品。他们之前对 AI 几乎没有接触,所以当我谈论目前的 AI 技术时,他们还以为这只是 Siri 这样的语音助手的改版。

然而,当我通过语音问 AI 问题,并获得自然流畅的回答时,我父母的大吃一惊。我能看到他们眼中闪现的不可思议,接着他们问出了一个经典的问题:“刚才答你问题的难道不是真人吗?”

在我让他们多试几次后,他们终于相信了:刚刚确实是在和 AI 交流。没过几天,我父亲竟然下载了这款 AI 产品,乐此不疲,甚至还乐于分享 AI 为他创作的诗和画作。

不过,过了不久,这款 AI 产品的新鲜感慢慢消退了。

最近几天,科技圈最热的话题无疑是苹果的 iPhone 发布会,被戏称为“科技春晚”。但是,苹果的“科技春晚”并没有以前的魅力,吸引力大打折扣——早已不复当年 iPhone5S 发布时的盛况,反倒是华为的三折叠手机引发了不少关注。

这种消费者市场的残酷性就是:消费者对新鲜事物的兴趣来得快,去得也快。如果你不能持续提供新体验,市场就会迅速被竞争对手占领。最开始支撑 iPhone 地位的是前所未有的创新,随着智能手机供应链发展,各品牌产品的竞争已经达到一个高水准,iPhone 再也不会像以前那样带给我们惊喜。

当前的 AI 似乎也碰到类似的瓶颈。最近一张网络上传的关于 Chat-GPT 流量骤降的图,引发了市场震荡,英伟达、谷歌、亚马逊、Meta 等 AI 企业的股价随之下跌。

虽然这张图最终被证实是个乌龙,但这样的风波也反映了一个现象:如果你真相信 AI 是未来,怎会被一张来历不明的照片所左右?原来你对 AI 的信仰竟如此脆弱。

今天我们聊聊这个版本的 AI 故事,还能讲多久。

01 低端需求

我遇到过一些闪婚的情侣,初见时甜蜜得不得了,朋友圈的群埋爱意,直到几个月后,他们开始抱怨琐事与争吵。其实两人依旧是好伙伴,但面对现实,事儿真得看得更深了。

生活中的问题五花八门:换下的衣服洗了吗?碗筷洗干净了吗?食材买多了还是买少了?还没扔垃圾呢?宠物是不是该看兽医?中秋快到了,是否要回家看看父母?这些小细节,却常常成为争吵导火索,问题的价值却可能不足 20 元。

发觉不对劲后,其实能发现新鲜感过去了,大家开始用更务实的标准去衡量彼此。我们对当前这股由 Chat-GPT 引领的生成式 AI 的态度,也是如此。

去年,Chat-GPT 刚面世时,大家对它惊叹不已,认为它展现出了强大智力,能理解我们的询问并给出合理回答。特别是在翻译领域,它几乎无出其右。

但没过多久,市场竞争崛起,潜伏的对手如 Claude.ai 和文心一言瞬间迎头赶上。因此,我们与 AI 的“热恋期”结束了,大家开始用更现实的眼光看待 AI。

我们发现,AI 承载的需求其实并不高。我曾让 AI 帮我拟文章大纲,虽然它反应迅速,但内容支离破碎,完全没主次之分,无法形成一篇重点突出的文章。

七月份出差北京,与朋友在某烧烤店聚餐时,看到菜单我就想笑,背景图显然是 AI 生成的——惟妙惟肖的人物手变成了麻花。

还有我尝试让 AI 仿照王维的风格写诗,结果生成的是一篇“老干部体”,吓得我立刻关掉了。至于让 AI 谱曲,听了仅三秒就扯掉耳机,感觉太尴尬,脸皮薄得我再听一分钟恐怕得入院。

朋友形容 AI 的做法像是在给刚出校门的实习生布置任务:年轻人努力又听话,但脑子转不过来,做些基础的事情难免粗糙。这也是现在很多 AI 产品现实应用中的体验问题,难以让人视其为可靠的工具或搭档。

AI 必须成为实实在在的工具,而非玩具;它该是我们的“老师傅”,不是需要我们逐步引导的实习生。

02 瓶颈期

那么,为何这一届的 AI 产品只能满足低端需求呢?

这可以从技术原理入手,以 Chat-GPT 为例,构建一个像 Chat-GPT 这样的大型语言模型,需要经历几个步骤:

首先,得有海量的数据,小说、新闻、视频、音频……总之要准备一个庞大的“语料库”,以便让模型进行学习。为了提高效率,还需将资料标准化,以便更好地输入模型。

接下来,像 Chat-GPT 的大模型是基于 Transformer 架构。这个架构的作用是能按照我们常用的语法输出内容,相当于 AI 的语言中枢和表达工具。

然后,通过各种技术来训练 AI,调节参数,优化,最终让其理解输入信息并生成合理的回应。

不过需注意的是,“合理的回应”并不意味着“有用”,也不一定“拟人化”。当我的朋友发些奇怪的东西,我往往回应一串“哈哈哈哈”或随便一个“6”,心情不好就来句“有病吧”。但 AI 往往回复说:“这真是一个非常有趣的图片。”前者相对真实,后者显得高深,但并不真实。

造成这种情况的根本原因在于其开发方式:GPT 们使用 Transformer 架构相较于以前的 RNN 架构,能更好理解词语顺序关系,并显著提高训练速度。虽然听起来没有问题,可细想一下,这只是不断在语义上下功夫,在不停地“猜字谜”,而并没有真正理解世界。

以翻译为例,AI 能达到 99 分的水平,答疑解惑可能表现仅六七十分。简单来说,当我说天冷时,AI 自然会给我建议穿秋裤,但它并非真正明白“穿秋裤”能让人保持温暖,而猜测因为它的训练数据中,“天冷”和“秋裤”这两个词时常一起出现。

总体来说,AI 的确能理解每个字的意思,并能给出合理的答案,但这里的“合理”是依靠大量数据学习而来的,而非基于对现实规律的认识。

在视频生成中,表现尤其明显。AI 虽在画面细节上做到高度仿真,但涉及物理效果时会显露出瑕疵——它并不理解真实世界的物理冲突,只是在猜测你想看到什么。

虽然 Chat-GPT 经过多次迭代(即将上线 5.0 版本),功能更强大,但这些增强的基础依然是“猜字谜”的速度和强度,而不是其真正智慧的增长。

结语

这届 AI 的故事还能讲多久?业内对此的应对措施是引入一种不同的思路——强化学习(RL)。

若说“深度学习”侧重于语言的理解,那么“强化学习”则更接近于理解真实世界。系统需在无指引的情况下自主探索、尝试,通过实践获得知识,从而不断提升自身能力。

在此过程中,系统追求的是“奖励信号”的最大化,就像玩电脑游戏,每个行动都会获得评价信号,表现越好,获得的信号就越高,因此系统需学习做出明智决策。

可以形象地描述为:AI 是学生,人类是老师——那些基于“深度学习”的 AI 依赖于“人类教师”的数据集监督,符合“教师”口味的就会得到鼓励,不符合则被抛弃。

而“强化学习”的 AI 更像是自学成才,虽然“人类教师”只是引导者,它们自己的努力将决定成就与否。在许多时候,它们可能没有具体的学习资料或指导,教师的任务只是要不断鼓励其学习,而具体效果,教师本身也不一定清楚。

因此,我们看到以“深度学习”为基础的 AI,在语言、语音、图像处理上表现出色,因为这些定义权掌握在人类手中,AI 要做的就是尽量迎合人类的偏好。而基于“强化学习”的 AI 则在某些领域表现出色,比如自动驾驶或游戏,在不断与环境互动中进步。

当前我们正处于一个关键时期,大语言模型开始迈向“强化学习”,这意味着将来 AI 在回答之前,会更多考虑。OpenAI 正在研发的“Strawberry”项目,是一个基于强化学习的大语言模型。

基于强化学习的 AI 即将在未来的 1 - 2 年问世,在这样的背景下,我真的不知道这届 AI 的故事还会讲多久。

正文完
 0