亲测文心一言:功能体验与潜力展望

24次阅读

共计 1122 个字符,预计需要花费 3 分钟才能阅读完成。

在漫长等待一个多月后,百度的文心一言终于正式亮相。整个发布会过程对百度而言,似乎有些“煎熬”,现场并未进行实机测试,而是通过一段视频来展示文心一言的功能。

从李彦宏的演讲过程能看出,这位中国互联网的传奇人物竟略显紧张。文心一言对百度的重要性不言而喻,有人甚至将其视为中国互联网对抗 ChatGPT 的唯一希望。在过去一个月里,众多企业已宣布与文心一言合作,进军未来人工智能行业。如此氛围下,文心一言的具体表现将直接影响投资者及用户对百度的信心。

发布会用视频代替实机演示后,百度股价暴跌,仅 10 分钟跌幅就达 10%,240 亿元市值蒸发,每秒损失约四千万元市值。不过,类似大企业新品发布时股价常坐“过山车”,百度股价 16 日暴跌,17 号却暴涨,甚至高于 16 号最高值。

李彦宏在发布会现场也承认,当下文心一言存在诸多不完美之处,但未来会更好,正如网友所说:未来可期。

文心一言宣传除对话问答外,还支持生成图片、视频等功能。然而测试中,内测版文心一言无法提供视频生成功能,直接生成一段文字。虽答非所问,但文字描述对应的视频画面符合要求。李彦宏解释,视频功能未上线是因资源消耗大,为顾整体用户体验,内测版未推出。

在绘画功能测试上,用不同描述让文心一言生成照片和画作,结果令人意外。生成的第一张照片,草原、太阳基本符合要求,只是太阳少一个。以毕加索风格生成油画,效果不佳;梵高风格却好多了;日系风格有不少 BUG;科幻风格也有问题。可见其绘画功能不稳定,相同描述可能因内容不同,结果差异极大,在理解用户语义和内容上存在问题,后续优化空间大。

对比绘画功能,对话式问答或许是多数人所需。尝试让文心一言评价 2023 年春节档电影《流浪地球 2》,评价内容不错,但回答第一行就出现逻辑错误,将其上映时间说成 2020 年。指出错误后,回答直接变成未上映;换种提问方式,又得到前后矛盾的回答。在常识性问答上,文心一言错误不少,涉及具体时间问题回答时,似乎有严重 BUG。

测试脑筋急转弯,回答不出所料,指出问题后文心一言还能圆回来。普通提问终于回答正确。在其他应用场景测试中,如推荐处理器和显卡等回答存在问题,但在生活领域问答准确度较高,能提供详细旅游计划,表现超出预期。

在生产力方面,让文心一言生成广州风土人情介绍文章,出现一些状况,似乎“500 字”是其“死穴”,不过微调后回答正常,抛开意外 BUG,它能生成简单文案,提供基本内容框架,生产力表现虽不突出,但考虑其为初始内测版本,后续优化空间大。

综合体验,文心一言有惊喜也有“惊吓”。在专业领域问题不少,但在生活娱乐领域表现不错,其在生活娱乐领域展现的潜力,或为百度次日股价暴涨原因,虽生产力等方面表现欠佳,但潜力惊人,个人对其未来十分看好。

正文完
 0