深度解析ChatGPT:消除偏见,探索AI无限可能

20次阅读

共计 8720 个字符,预计需要花费 22 分钟才能阅读完成。

近期花费了一些时间持续学习 ChatGPT,深切体会到认知它的整个过程,实则是消除自身偏见的过程。在此期间,明显察觉到存在大量信息不对称的状况。即便关于 ChatGPT 的讨论已然众多,但在诸多噪音之中,有价值的信息并非总是轻易就能获取到。

1. 重点并非「聊天机器人」

首先,对于 ChatGPT 而言,它所带来的大家提及的 AI 的革命性进展,绝非仅仅做出了好用的聊天机器人。也就是说,这并不意味着在我们的生活和工作中不会产生太大变化,而主要变化仅仅是增添了一个聊天机器人。倘若依据这样的前提来探讨,它似乎并不具备革命性。若真是如此,又凭什么称它为 iPhone 时刻呢?

实际情况是,聊天仅仅是 OpenAI 进行的一项演示,通过它来展示 GPT 这个模型的强大威力。然而,在这个威力之外,大家却仅仅将它视作聊天机器人,这着实令人啼笑皆非。

当然,我们都清楚,这个聊天机器人是 OpenAI 团队用于获取真实世界对话的一种方式,借助它来继续迭代训练模型,进而强化学习的 RLHF。选择向用户开放的这条路线,看似常见,或者说之前也曾出现过,但实际上在科研领域,这是一条非常 unconventional、非主流的途径。

以往,无论是企业还是高校,在进行大模型或 AI 方面的研究时,都采用类似做题家的思路,即运用各种学术界的评测,如由 20 个专家标注的确定性的 QA 问答题来完成,都是命题作文式的。

但如今 OpenAI 表示,我不参与这些考试,不做这些题目,也不去比拼论文数量,而是将模型置于人民群众的汪洋大海之中。

现实就是,擅长写高考作文与善于和人聊天,确实是两码事。所以在使用 ChatGPT 时,存在很多方式并不正确。比如,像我这样可能对 NLP 稍有了解,或者知晓产品、技术实现逻辑的人,就会思考:这个问题是不是为难它了?它肯定不会吧?于是就不再提问。

当知晓它是机器时,就容易担心所给的前提条件不充分。担心它会胡说八道,给出错误答案,从而产生一种奇怪的愧疚感。所以在潜意识里会格外照顾它,将问题表述得格外完整才会发问。

这样一来,结果就不够真实。包括我那些从事 NLP 的老同学,他们在提问时也会带有很多假设和前提条件,问出的并非正常人聊天会问的内容。而现在使用 ChatGPT 的大多数人并非产品或技术背景,不了解背后的原理,所以问出的问题反而更加真实。OpenAI 最初也是使用格外真实的语料进行训练,故而能够训练出 ChatGPT 这样的效果。

2. 很多当下的问题,都是技术性问题

另一个认知偏差是,认为 ChatGPT 就是一种终态,进而觉得它存在的诸多问题代表它不够智能。

比如说 ChatGPT 搜索的信息不准确,以及会胡说八道。许多朋友都会有这样的感觉,问了几个问题后发现不对,就认为 ChatGPT 并没有大家所说的那么有价值。

对于信息准确性的问题其实是比较容易解决的,而且必然会得到解决。因为现在所使用的模型,并非是在与每个人沟通时逐句学习,不像某些人想象的那样,在交流时现学现卖(当然在聊上下文时,它会考虑上下文,可定义为短时学习)。其背后所使用的大模型,实际上是一个用 2021 年的语料训练的固定模型,这个底层模型不具备实时进化能力。

那么为何信息准确这个问题好解决呢?这一点随后再作说明。

另外一种常见的观点是,既然 ChatGPT 是一个生成式工具,那么它应该能够帮助甚至替代内容创作者。目前来看,在这方面它的水平较为有限。或许可以帮忙写个周报,润色一下文字,写个小红书笔记等等,即便如此简单的工作,大家也能发觉,它写出来的内容 AI 感很强,并不擅长用人的语气表达,能明显感觉到其整个表述方式有一种怪异之感,这不禁让人怀疑:这个所谓的 AI,难道就模仿不了人的语气吗?可见,人类还是存在一些所谓「灵魂」的部分,AI 创作内容时就是缺少灵魂。

而残酷的是,我也认为,内容创作的风格和语气并非大问题,依旧是技术性问题,因为 AI 最擅长的就是模仿,相对而言,对文本的模仿较为容易。只不过一方面,由于 ChatGPT 主要基于英文语料进行训练(中文语料仅约 1%),所以在中文表达上存在较大问题,翻译体十分明显。

另一方面,ChatGPT 本身是经过刻意训练的。它目前这样的语气和表达风格,是训练而成的,并非 AI 天然就是如此。因此可以说这是个技术性问题。比如说,当初 AI 绘图刚出现时,大家当然习惯基于当时的版本进行考察,认为 AI 能画成这样已经不错了,但是 AI 绘制的图仍带有 AI 感。这个所谓的 AI 感大致是指光影、细节(比如画手)等方面的问题,在 Midjourney v5 中,这种 AI 感已基本消除。因为这就是一个可通过训练解决的技术性问题。

所以,ChatGPT 信息准确度的问题、内容表达和语气的问题、人格的问题,都是技术问题。可能会有朋友问了,那你说都是技术问题,AI 发展了这么多年,难道每个问题都是技术问题吗?为何 ChatGPT 就与众不同呢?

3. 重要的是「理解和推理」

ChatGPT 最为特殊之处,在于揭示了一种可能性,即 AI 能够呈现出理解和推理能力。这是过去大半个世纪以来学者们一直追求却未能实现的。

在此,有必要简要阐述一下 GPT 背后的逻辑。首先,语言模型很早就已存在,10 年前我读研时,如果学习 NLP,翻开教材的第一页或许就能看到语言模型,就如同学习高等数学第一课先学函数一样,这并非新鲜事物,也不是现在才发明的成果。

为何作为一个语言模型,大家会如此惊奇呢?并非因为它能够对话、能写出所谓不偏不倚的文章,更不是能获取什么信息和知识,而是因为在这个大语言模型中体现出了推理能力。

体现推理能力是一个事实。说到这里,必然会有一些朋友,援引包括知名学者在内的很多人的说法进行反驳,认为语言模型只是统计模型,因此不能称之为理解和推理。

这里也不妨进一步阐述大语言模型的逻辑。最基础的很简单,依据上文预测下一个词。过去由于能力有限,是根据一两个词预测下一个词,后来出现了更多算法和更好的硬件,于是能够预测更多上下文。如今的 ChatGPT 就能依据几千个字符进行预测,这得益于强大的 Transformer 算法。

然而,大语言模型依旧是一个猜词游戏,是基于统计意义的一种算法,它没有其他复杂思考,只是从海量记忆(模型)中搜寻出最有可能出现的下一个词。

所以很自然地,无论谁都会觉得,这种基于统计逻辑的语言模型,恐怕只能解决记忆问题,无法解决逻辑问题。就像我们阅读了大量书籍、文献、维基百科、百度百科等各种知识后,接下来能做的,可能只是成为一个不错的翻译,或者写出一篇像模像样的文章,但做其他事情应该是不行的。毕竟它只是个复读机,是个「网络的模糊印象」(这是科幻作家 Ted Chiang 对 ChatGPT 的评价,如今已被更多人视为偏见)。

无论怎样去想象这个算法逻辑,我们都很难想象仅靠记忆就能产生逻辑。在 2022 年之前,这简直是天方夜谭,而在 2022 年底过后,ChatGPT 让这成为了一种可能性。

为何 ChatGPT 在逐个蹦词时就能呈现出逻辑呢?这仍然是一个科学上尚未解开的谜团,也是一个争论不休的话题。毕竟在我们的想象中,一段有逻辑的文字,应该是先设定主题,再构思框架和段落,然后才落笔的。

这里要特别补充一点:表现出推理和逻辑能力,与本质上是否具有推理和逻辑能力,是两码事。前者是一个事实问题,已经可以说是公认的了,从原理上反驳意义不大,用过便知;后者则是一个哲学问题,仍在争论之中。

什么叫具有逻辑能力,很早便是学术界存在争议的话题,自控制论出现后就在讨论「看起来的智能是否就是智能」的问题。同时,人脑运作的许多原理目前尚不清楚,逻辑推理是如何产生的,也并不明晰。

很奇妙的是,在当前的模型中,「think step by step」是一个非常有效的方法,与人类思考颇为相似,机器只要不是直接给出结果,而是多思考几步,就能呈现出非常好的效果。

这些都是题外话。实际上,对于产学研而言,最令人惊讶和兴奋的,并非讨论本质上是否具有推理和逻辑能力,而是表现上是否具备。

4. 通往通用人工智能之路

OpenAI 在这个大语言模型上做了什么,从而做出了 GPT 以及 ChatGPT 呢?其实并没有在算法、底层规则等方面做很多复杂的事情。而是采用非常工程化的手段,甚至可以说是较为暴力的手段进行训练,然后反复调试。

所以,一个非常古老、早已长满青苔的语言模型,居然能够实现具有推理能力的高水平 AI,这实在令人意外。追求 AGI 的道路,自 1956 年达特茅斯会议实际上就已经启航了,明斯基、麦卡锡、司马贺、纽厄尔这些人工智能的创始人,原本预期十年二十年就能实现的梦想,却花费了大半个世纪,进展依旧不大。

学者们最初的想法,与大多数人想象的 AI 必须先学习的步骤类似,即学习推理。他们被称为符号派,就是将世间万物的所有逻辑和知识抽象出来,转化为形式语言,如同数学题一般可以进行计算与推演,一生万物,这不就是智能吗?这条路一度是人工智能的主流派系,直到二三十年之后,尝试了各种方向,却发现全都行不通。

接下来便是统计学习和深度学习的时代,即让机器自行消化数据,从而解决问题。此时的学者们更加务实,不再关注 AGI,而是专注于垂直课题,比如人脸识别、自动驾驶、下围棋和玩游戏等等,这些方面似乎都取得了不错的成果。语言模型也在其中,大家认为它能够解决一些问题(谷歌翻译和百度翻译就是基于语言模型的逻辑),但显然无法解决所有问题。

而 ChatGPT 带来的启示,就好比有一个田径队,短跑、长跑、接力跑、马拉松等不同项目,由不同的教练采用不同的方法进行训练,毕竟是不同的课题。然而如今,有一位教练采用了全新的方法训练了一名队员,结果发现这名队员在各个项目中都表现出色,接力跑、长跑、短跑都能取得优异成绩,甚至尝试扔铅球、扔标枪、跳鞍马也都名列前茅,他不一定每项都能夺冠,但这样的效果令人十分惊讶。

还是如前文所说,具备逻辑、能够从信息中发掘知识,这并非一个值得争论的问题,而是一个事实。许多学者花费多年研究如何让机器识别词性(形容词、动词、名词等),这是一个专门的课题,而 ChatGPT 在词性标注方面也完成得非常出色。类似的课题数不胜数。用《三体》中的话来说,众多学者、博士们一直在研究的 NLP 中间课题已经不复存在,这毫不夸张。即便不提这些研究课题,注册使用一下 GPT – 4,你肯定也会有切身体会,这种体会是不会骗人的。

那么,AI 具备了逻辑和理解能力后,能做什么呢?能做的事情太多了。

前面提到的技术性问题,反而可以交给一些基于规则的产品来解决。例如,ChatGPT 自身可能信息不全面,但它比很多人更善于查找所需信息,而不仅仅是对网页进行排序;ChatGPT 自己可能写不出非常出色的文章,但经过熟练写手的训练后,确实能够理解你的需求,进而成为一个具有固定文风的写手;原生的 ChatGPT 可能完全不知道如何使用 Word,但让它观看大量人们的使用方式后,很快就能学会。

这才是 ChatGPT 最为与众不同的地方:它比以往所有的 AI 都更像一个 AI。当 AI 这个词在 1956 年出现时,大家所想象的是一个智能的东西,而如今,它真的出现了,至少拥有了真正智能的可能性。这一点在学术圈和科研领域最早引起了轰动,其震撼程度可能比普通用户还要大。

之前大家看不到通往通用人工智能的道路,所以 ChatGPT 的意义并非在于聊天机器人本身,而是在于这个全新的范式,它揭示了一种前所未有的可能性。这未必是唯一的可能性,但确实是一种可能性,一种过去从未有过的可能性。

5. 继续推演未来

接下来可能会发生什么呢?我观察和思考到了以下 7 个方面,在此与大家分享。

第一,不仅 AI 企业都将投入大模型领域,而且很快会进入工程层面的军备竞赛。

这里与很多朋友的想法不同,大模型并非比拼参数量。如果去搜索参数量的模型,快手还曾官方自豪地发布过一个拥有万亿参数量的模型,当然这与 GPT – 3 相比仍有差距。

同时,也不是单纯比较数据量的多少。数据固然是一个壁垒,但还有一个更为核心的竞争力,即调试工程。例如百度,之前开发的文心大模型,底层数据量并不比 OpenAI 的少,甚至很可能底层模型的质量也不比 GPT – 3 差。只是完全没有采用 ChatGPT 的训练方法(InstructGPT),也就是如何激发模型的潜力。激发的过程非常玄妙且充满魔幻色彩,OpenAI 拥有一个规模不小的工程团队,专门通过语料和代码进行激发和调试,以使模型变得更加智能。

这可以说是最后画龙点睛的一步。就好比有一个天赋极佳的小孩,需要精心调教,而如何调教并没有一个确定的方法论,调教本身就是一个黑箱,每个团队都需要慢慢摸索、反复试错。

从 GPT – 3 这个底层模型的出现,到 ChatGPT 的诞生,实际上花费了大量的精力,在这个过程中,工程方面比研究更为重要。学术研究提供的是方法,但 ChatGPT 背后并没有新的方法,更关键的是工程团队运用了一些巧妙的方法。所以 OpenAI 公开了底层的算法和逻辑,却没有公开 ChatGPT 的源代码。对于百度而言,即便花费一两个月重新开始调教,效果也肯定无法与 ChatGPT 相媲美。百度和国内其他企业面临的大多也是调教方面的问题,想要投入资金训练出一个底层的 GPT – 3 模型并非难事,难的是实现 InstructGPT 这样的效果。

第二,如何调教,将直接影响 AI 成为何种类型的 AI。

并非各个不同的团队对大语言模型进行激发后,最终的效果都会殊途同归、完全一致。许多不了解技术细节的朋友总觉得 ChatGPT 很笨,因为它总是以一种四平八稳、按格式来写命题作文的方式回答问题,这是刻意调教的结果。这样做的目的是为了迎合最广泛的用户群体,避免出现任何政治错误或偏见问题。

实际上,想要调教出一个极端分子、一个特别温柔的心理咨询师,甚至一个诗人,原则上都是可行的,关键在于如何进行调教。

有一种说法是,目前 OpenAI 使用了 6 万多条语料就调教出了 ChatGPT。那么,如果使用其他语料、更多的语料,会产生什么结果呢?可以预见的是,未来将会调教出各种各样的 AI 人格,不同团队制作的 AI 风格各异,就如同人与人之间存在差异一样。

因此,ChatGPT 并非是一个团队花费多年培育出的一个特定品种的苹果,名为 ChatGPT,你尝了一口觉得太酸就扔掉,然后认为这件事没有价值。名为 ChatGPT 的这个苹果固然重要,但更重要的是,发现了一片名为大语言模型的土地,可以在上面种植各种 AI 水果,不仅有苹果,还有梨子、菠萝、葡萄等等,存在着大量的可能性。这是必然会发生的。现在很多团队所追求的,并非是培育出同一个品种、酸甜度完全相同的名为 ChatGPT 的苹果,而是都看到了这片土地上种植其他水果的价值。

第三,ChatGPT 所代表的这种范式是可靠的,那么很多技术性问题的解决仅仅是时间问题。

这是对前面所提出问题的回应。只要这种范式是可靠的,那么很多技术性问题无非就是增加算力、扩充数据以及耐心地进行调教。

早在 1956 年,塞谬尔就开发了一个跳棋程序,在当时已经能够战胜很多专业选手,那时许多科学家就意识到,未来机器在棋类游戏中战胜人类只是时间问题(包括在读大学的陆奇,当时就有这样的洞察)。到了 1997 年,深蓝击败了国际象棋大师,2016 年,AlphaGo 战胜了围棋世界冠军,如今的许多游戏 AI,如 DOTA2、星际争霸 2 的 AI 也都能够战胜很多顶级选手。在范式不变且可靠的前提下,学会下棋就成为了一个技术性问题,也就意味着只是时间问题。

对于具备逻辑能力的大模型而言,前文提到的信息准确度等问题,不一定需要在模型内部解决。ChatGPT 也可以与训练有素、具备数学知识的产品合作。就像一个聪明的小孩,虽然不懂数学,但足够机灵,那么可以给他配备一个小伙伴,这个小伙伴虽然不是特别聪明,但上过奥数班,两人合作,问题就能迎刃而解。这并非是假想。

知名的计算智能引擎产品 Wolframe 就与 ChatGPT 展开了合作,在补充了更准确的知识和规则后,能够解决大量的问题,涵盖化学、数学、物理、地理、几何、历史、材料、工程等多个领域。

第四,解决各种问题的速度,或者说满足各种需求的速度,可能会呈指数级增长。

这是一个比较感性的判断,确实缺乏很有说服力的论据。目前大家也都不清楚在多长时间内会发生什么事情。不过大概率其发展速度不会是线性的,因为人脑的学习速度较为缓慢,毕竟神经元信号传递存在速度限制,神经元的数量和规模也有整体的限制。但计算机则不同,就如同一个人脑能力有限,可以连接 10 个人脑。10 个爱因斯坦的脑袋连接在一起,其进化速度肯定比生物进化要快得多,虽然不一定是乘以 10 的关系。

ChatGPT 的成功促使那些在过去领域中已经竞争得疲惫不堪的大厂纷纷进入军备竞赛,这也将加速这一进程。此外,对于很多场景来说,让产品对接大模型并不复杂,ChatGPT 作为中间层非常合适,主要负责解释和推理,无需针对每个场景都重新进行训练(未来难以预测是否各种场景都会拥有自己的大模型)。从 Office 和 Adobe 如此迅速地跟进就可见一斑。

这里存在一个残酷的现实,即业务融合 AI 模块之后,每个打工人在使用 AI 的过程中,实际上就是在加速自我淘汰的过程。

第五,调试工程师将会成为非常有价值的岗位。

这一点很好理解,对于大模型来说,其可解释性非常差,换言之,可控性很差。前文也提到过,它就像是一个巨大的黑盒,只能通过调教来进行操作,无法做到像指挥普通程序那样指哪打哪,比如不能说这个问题回答得不好,下次必须按照这样的方式回答——无法通过这种方式对它进行训练。所以调教显得尤为重要,调试工程师也将变得越来越有价值。

不过,调试工程师究竟需要具备什么样的能力呢?是了解场景,还是熟悉代码?目前还不太清楚。这是一个全新的岗位,大家都在探索之中。

第六,失业问题。

遗憾的是,未来有价值的岗位不会太多,而没有价值的岗位将会越来越多。

失业问题颇为有趣,之前 OpenAI 曾官方发布过一篇报告,具体内容在此不详细展开,只阐述最后的几个结论:

其一,80% 的人会受到影响,其中 10% 的人工作内容会受到 LLM 的影响(受影响的定义是同等质量的工作成果,工作时间减少 50%),19% 的人「受到重大影响」,即至少 50% 的工作内容会受到 LLM 的影响。

其二,薪资越高的人越容易受到影响。受过良好教育、拥有丰富工作经验、高薪的职业,受到影响的概率相对较大。

其三,有一个影响程度排行榜,实际上就是高危职业列表。其中高频出现的包括:数学家、口译员和笔译员、作家和写手、区块链工程师等。

其四,部分职业存在被彻底替代的可能性。在人工标注的结果中,有 15 个职业;GPT – 4 标注的结果中,有 86 个职业。AI 的影响力度果然更大。

(报告来源:https://arxiv.org/pdf/2303.10130.pdf)感兴趣的朋友可以自行阅读全文。这个预测当然不会十分准确,但他们采用了尽可能量化的方式,具有一定的前瞻性。未来是否会发生这种情况呢?我认为大概率会发生,只是时间难以确定。一些相对容易落地、容易被快速替换的职业,比如个体户可能面临的风险更大。例如插画师、电商图片美工、一些公众号小编等等。大公司由于组织架构复杂,整个工作内容或岗位的调整会面临组织管理方面的问题,可能会相对缓慢一些。

在这中间可能会有一个过渡期,比如 AI 绘图成为主流之后,画师们未必都会失业。就像 Photoshop 出现之后,大家更多地从用纸和笔绘图转变为使用另一种工具绘图。未来 AI 绘图背后,同样需要经历需求转化的过程(prompt engineering)。不过比较悲观的是,AI 绘图与 Photoshop 不同,两者存在效率差异。用纸和笔绘图的画师与使用 Photoshop 绘图的画师相比,生产力的变化可能没那么大;但 AI 绘图的生产力提升幅度巨大,这意味着不太需要那么多从业者,必然会引发结构性的大波动。那么未来会怎样?是否会引发重大社会问题?这就不是我所能讨论的了。

第七,大多数人机交互方式将不复存在。

在冰箱发明之前,许多人研究的是如何存储冰块、制造冰块,有了冰箱之后,就不再需要这种冷藏方式了。对于产品交互也是如此,用户过去为何要点按钮?要进行各种操作?包括 Photoshop、Word 中许多反人类、根本记不住的复杂功能。

所以我们目前似乎正处于一个过渡期,当真正的技术能力达到一定水平后,当下的大多数人机交互方式将不再必要,只需要保留自然语言交互即可,这与我之前写过的一篇猜想相契合(从 ChatGPT 看 AI 未来的 7 种场景可能性)。

与撰写之前的文章时不同,这段时间我试用了基于 GPT – 4 的 ChatGPT,并与更多专家探讨了一些技术问题。现在我认为这是具有一定确定性的。就像前面所说的,目前的发展速度是指数级的。

写在最后

如今 ChatGPT 发布后,整个产学研都已步入快车道,在这条快车道上,没有人有能力踩刹车。我们作为个体,也无法回避 AI 这辆历史车轮。

大家都知道阿里有一个常被调侃的价值观,叫拥抱变化。如今看来,这个词还挺应景的。

所以不妨换个角度思考问题:汽车时代到来时,马车夫肯定非常焦虑,驯马师也会很焦虑。然而汽车是一种工具,对大多数人来说它非常有帮助。它的出现并非是要摧毁谁、哪些岗位或哪个行业,而是为人类服务的。

我们可以利用汽车做很多有价值的事。没有交通工具效率的提升,全球化也不可能实现。我们可以多想想,有了 AI 我们能做些什么。

最近与身边几个要好的朋友交流 AI,大家达成的共识是,先用起来。先用它做些事情,感受一下它能做什么、不能做什么。未来有着无限的可能性,不妨把目光放长远一些;不要纠结于当下的得失,看看 AI 未来的机会。保持这样的心态或许更容易接受变化。

就说到这里,希望能对大家有所启发。

正文完
 0