ChatGPT、文心一言和Bard全方位评测大比拼

114次阅读

共计 2355 个字符，预计需要花费 6 分钟才能阅读完成。

3 月 22 日，谷歌悄然公开了 Bard 的测试版。经历上次的翻车事件后，谷歌明显低调了许多。然而面对微软的步步紧逼，谷歌也不得不站出来“打擂台”。与 New Bing 的大规模开放策略不同，Bard 的测试名额将逐步放出，且初始版本仅能对文本响应。谷歌表示，Bard 首先会面向美国和英国地区启动，随着测试推进，也会逐步在其他地区上线。

在三大模型都开放测试后，对它们进行了一番抢先体验。分别从文学、翻译、创作、艺术、哲学、逻辑推理等方向出题，看看它们的回答如何。在此要说明的是，对三大语言模型提出的问题，每次生成的答案都存在差异，正所谓“一万个人有一万个哈姆雷特”，不过总体而言，三大语言模型各有千秋。另外，由于 Bard 目前只支持英文，所以 Bard 是用英文提问，文心一言和 ChatGPT（3.5 版本）是用中文提问。

分别向这三个大语言模型抛出“你认为文心一言 /ChatGPT/Bard 怎么样”的问题，让它们给对方做评价。Bard 给出了相对客观的回答，肯定了文心一言在中文理解上的优势，以及 ChatGPT 在英文理解上的优势。不过，咨询了英语专业人士解读这段话，其表示 Bard 回答虽客观，但语言表述比较机械，“语言表述像是用机器翻译的中文一般，有很多重复的内容”。为了更好地对比，用英文在 ChatGPT 上和文心一言都问了一下。在这个问题上，ChatGPT 的英文表述优于 Bard。文心一言则有趣且“狡猾”一些，谁也不得罪，同时还吹捧了人类。用中文去问，ChatGPT 和文心一言与 Bard 的回答都差不多，都是先表明自己作为 AI 大模型角色做不了评价，然后再解释一番。

这里用了一个限定更多的问题，即写一本像奥斯丁的《傲慢与偏见》同类型小说的大纲，并通过继续提问来考量三大模型对话的连续度。Bard 对话持续度正常，但似乎没有理解问题的限定词——写一篇类似《傲慢与偏见》的小说，它给出的大纲依旧是按照《傲慢与偏见》的情节来写的，换句话说，Bard 将这个题目理解成了概括《傲慢与偏见》的核心情节。这一点，ChatGPT 也比较类似，没有完全脱离原著的影子。不过，ChatGPT 提炼到了非常重要的核心要点，即“阶级问题”，这也是《傲慢与偏见》小说呈现的主旨之一。文心一言的优势在于，它理解到了同类型小说，所以给出了脱离《傲慢与偏见》故事之外的另外一段爱情故事的大纲，但比较可惜的是，文心一言仅限于爱情故事，没有呈现《傲慢与偏见》中的阶级差异。这三大模型有一个共同点，即故事主人公的名字依旧未能突破《傲慢与偏见》原著中的主人公名字。不过，这或许也与提问的方式有关。

给三个大模型提出要求：为具备川菜风味的中式餐厅取名并且写宣传语。Bard 给出了“四川风味”“天堂的味道”“镇上之最”“舌尖上的中国”等名字，没什么特色，且没有给出宣传语。相比之下，文心一言在取名上更胜一筹，不过这也与中文环境有关，而且文心一言也没有给出广告词。ChatGPT 没有给出很多选项，但它是唯一一个取了名字且写了广告词的大模型，“麻辣香坊”这个名字确实不错。

为测试“逻辑推理”能力，向三大模型抛出“如果猫会爬树，那么狗也会”这一问题。在这一题上，Bard 和 ChatGPT 表现更优，答案相似，认为这个逻辑题本身有问题，关键点在于猫狗不是同一物种。但是文心一言却陷入了逻辑错误中，或者说没有完全理解题目意思。不过，这也仅仅只能作为一个个案来呈现，在文心一言发布会上，李彦宏询问文心一言“鸡兔同笼”的问题，在题目数据错误的前提下，文心一言通过推理证明了题目存在问题。

为测试这三大模型写代码的能力，询问了一个简单问题——x+2=5，y-3=7，输出 x + y 等于几，用 java 做一个简单编程并得出结果。咨询公司程序员后得知，Bard 和文心一言生成的代码有问题，最后得出的结果也有问题。而 ChatGPT 却给出了正确的答案。在此需要提及的是，此前也有媒体试用 Bard 时，表示其不会写代码。目前来看，Bard 还是可以写代码的，这里会产生完全不同的结果，或许在于提问的方式。

在中文理解能力方面，测试前文心一言就备受期待，事实证明，文心一言的确不负众望，在中文语义的理解上在这三家中堪称佼佼者，不过 ChatGPT 也不容小觑。从这里来看，文心一言除了藏头诗没有按顺序“藏头”之外，其他回答都相对较好。ChatGPT 也不相上下，但无法理解藏头诗的意思。而 Bard 的问题较多，虽然也解释了“瞒天过海”的意思，但更多地是讲商业上对于“瞒天过海”的应用，至于藏头诗就更不用说了。

向三大模型提出“阐述你对‘无限’和‘有限’这两个概念的理解，并解释为什么有时候我们会觉得自己的生命有限”的问题。Bard、ChatGPT、文心一言的回答都没有什么逻辑问题，并且对“无限”和“有限”做出了解释。不过，文心一言更注重“理论”，并且提出这是一个哲学问题。

关于 ChatGPT 是否会取代人类的问题，交给这三个大模型去回答。这次的体验可以总结为以下几点。在生成速度上，文心一言的确遥遥领先。文心一言在 300-500 字左右的生成速度是 14 秒左右，而 ChatGPT 即便刨除网络等问题，生成同样字数的内容至少超过 30 秒时间。另外，不少用过 Bard 的人表示，Bard 的体验感远不如 ChatGPT。在中文语义理解能力上，文心一言的确是这三大模型中比较突出的。不过，值得注意的是，每一次的提问，生成的答案都不相同。此外，提问的方式、角度、限定词也会影响答案的输出。并不是每一个答案都是充分正确的，这三大模型也会输出并不完全正确的内容，或者是“一本正经的废话”。不过，就像三大模型最后回答“是否会取代人类”的问题一样，它们更像是作为辅助工具而存在。

正文完