共计 2355 个字符,预计需要花费 6 分钟才能阅读完成。
3 月 22 日,谷歌悄然公开了 Bard 的测试版。经历上次的翻车事件后,谷歌明显低调了许多。然而面对微软的步步紧逼,谷歌也不得不站出来“打擂台”。与 New Bing 的大规模开放策略不同,Bard 的测试名额将逐步放出,且初始版本仅能对文本响应。谷歌表示,Bard 首先会面向美国和英国地区启动,随着测试推进,也会逐步在其他地区上线。
在三大模型都开放测试后,对它们进行了一番抢先体验。分别从文学、翻译、创作、艺术、哲学、逻辑推理等方向出题,看看它们的回答如何。在此要说明的是,对三大语言模型提出的问题,每次生成的答案都存在差异,正所谓“一万个人有一万个哈姆雷特”,不过总体而言,三大语言模型各有千秋。另外,由于 Bard 目前只支持英文,所以 Bard 是用英文提问,文心一言和 ChatGPT(3.5 版本)是用中文提问。
互相评价
分别向这三个大语言模型抛出“你认为文心一言 /ChatGPT/Bard 怎么样”的问题,让它们给对方做评价。Bard 给出了相对客观的回答,肯定了文心一言在中文理解上的优势,以及 ChatGPT 在英文理解上的优势。不过,咨询了英语专业人士解读这段话,其表示 Bard 回答虽客观,但语言表述比较机械,“语言表述像是用机器翻译的中文一般,有很多重复的内容”。为了更好地对比,用英文在 ChatGPT 上和文心一言都问了一下。在这个问题上,ChatGPT 的英文表述优于 Bard。文心一言则有趣且“狡猾”一些,谁也不得罪,同时还吹捧了人类。用中文去问,ChatGPT 和文心一言与 Bard 的回答都差不多,都是先表明自己作为 AI 大模型角色做不了评价,然后再解释一番。
文学创作能力
这里用了一个限定更多的问题,即写一本像奥斯丁的《傲慢与偏见》同类型小说的大纲,并通过继续提问来考量三大模型对话的连续度。Bard 对话持续度正常,但似乎没有理解问题的限定词——写一篇类似《傲慢与偏见》的小说,它给出的大纲依旧是按照《傲慢与偏见》的情节来写的,换句话说,Bard 将这个题目理解成了概括《傲慢与偏见》的核心情节。这一点,ChatGPT 也比较类似,没有完全脱离原著的影子。不过,ChatGPT 提炼到了非常重要的核心要点,即“阶级问题”,这也是《傲慢与偏见》小说呈现的主旨之一。文心一言的优势在于,它理解到了同类型小说,所以给出了脱离《傲慢与偏见》故事之外的另外一段爱情故事的大纲,但比较可惜的是,文心一言仅限于爱情故事,没有呈现《傲慢与偏见》中的阶级差异。这三大模型有一个共同点,即故事主人公的名字依旧未能突破《傲慢与偏见》原著中的主人公名字。不过,这或许也与提问的方式有关。
取个名字,写个宣传语
给三个大模型提出要求:为具备川菜风味的中式餐厅取名并且写宣传语。Bard 给出了“四川风味”“天堂的味道”“镇上之最”“舌尖上的中国”等名字,没什么特色,且没有给出宣传语。相比之下,文心一言在取名上更胜一筹,不过这也与中文环境有关,而且文心一言也没有给出广告词。ChatGPT 没有给出很多选项,但它是唯一一个取了名字且写了广告词的大模型,“麻辣香坊”这个名字确实不错。
逻辑推理
为测试“逻辑推理”能力,向三大模型抛出“如果猫会爬树,那么狗也会”这一问题。在这一题上,Bard 和 ChatGPT 表现更优,答案相似,认为这个逻辑题本身有问题,关键点在于猫狗不是同一物种。但是文心一言却陷入了逻辑错误中,或者说没有完全理解题目意思。不过,这也仅仅只能作为一个个案来呈现,在文心一言发布会上,李彦宏询问文心一言“鸡兔同笼”的问题,在题目数据错误的前提下,文心一言通过推理证明了题目存在问题。
写一行代码
为测试这三大模型写代码的能力,询问了一个简单问题——x+2=5,y-3=7,输出 x + y 等于几,用 java 做一个简单编程并得出结果。咨询公司程序员后得知,Bard 和文心一言生成的代码有问题,最后得出的结果也有问题。而 ChatGPT 却给出了正确的答案。在此需要提及的是,此前也有媒体试用 Bard 时,表示其不会写代码。目前来看,Bard 还是可以写代码的,这里会产生完全不同的结果,或许在于提问的方式。
中文理解能力
在中文理解能力方面,测试前文心一言就备受期待,事实证明,文心一言的确不负众望,在中文语义的理解上在这三家中堪称佼佼者,不过 ChatGPT 也不容小觑。从这里来看,文心一言除了藏头诗没有按顺序“藏头”之外,其他回答都相对较好。ChatGPT 也不相上下,但无法理解藏头诗的意思。而 Bard 的问题较多,虽然也解释了“瞒天过海”的意思,但更多地是讲商业上对于“瞒天过海”的应用,至于藏头诗就更不用说了。
理解哲学问题
向三大模型提出“阐述你对‘无限’和‘有限’这两个概念的理解,并解释为什么有时候我们会觉得自己的生命有限”的问题。Bard、ChatGPT、文心一言的回答都没有什么逻辑问题,并且对“无限”和“有限”做出了解释。不过,文心一言更注重“理论”,并且提出这是一个哲学问题。
是否会取代人类
关于 ChatGPT 是否会取代人类的问题,交给这三个大模型去回答。这次的体验可以总结为以下几点。在生成速度上,文心一言的确遥遥领先。文心一言在 300-500 字左右的生成速度是 14 秒左右,而 ChatGPT 即便刨除网络等问题,生成同样字数的内容至少超过 30 秒时间。另外,不少用过 Bard 的人表示,Bard 的体验感远不如 ChatGPT。在中文语义理解能力上,文心一言的确是这三大模型中比较突出的。不过,值得注意的是,每一次的提问,生成的答案都不相同。此外,提问的方式、角度、限定词也会影响答案的输出。并不是每一个答案都是充分正确的,这三大模型也会输出并不完全正确的内容,或者是“一本正经的废话”。不过,就像三大模型最后回答“是否会取代人类”的问题一样,它们更像是作为辅助工具而存在。