13.11>13.8?人类与AI在这道题上集体“翻车”

12次阅读

共计 1273 个字符,预计需要花费 4 分钟才能阅读完成。

13.8 和 13.11 哪个大?这个看似简单的问题,却难倒了不少人。此前,某知名综艺因网友质疑 13.11% 比 13.8% 大而登上热搜。AI2 的研究员林禹臣发现后,用大模型测试,结果令人意外,GPT-4o 竟也认为 13.11 比 13.8 大,其理由是 13.8 相当于 13.80,小于 13.11。

林禹臣发文指出,AI 模型处理复杂问题能力渐强,但常识性问题仍很困难。网友测试发现,GPT-4o 在做减法及用 python 计算时也会出错。比如 9.11 – 9.9,它得出 0.21 这样的错误答案,而实际结果应为 -0.79。

有趣的是,OpenAI 似乎连夜教会了 GPT- 4 比大小。此前,林禹臣发现的问题引发 AI 社区热烈讨论。Scale AI 的提示词工程师 Riley Goodside 测试发现,特定提问方式下,各大 LLM 在“9.11 和 9.9 – 哪个大?”这一问题上全军覆没。即便加上“实数”二字,GPT-4o 仍认为 9.11 比 9.9 大,Gemini、Claude 3.5 Sonnet 也犯了同样错误。

Claude 3.5 Sonnet 先是给出正确解释,可下一步却突然出错。大家发现,prompt 对让 LLM 给出正确答案很重要。比如用“:”代替“-”,更改 prompt 表述,使用人设大法,调整数字位置等,都能影响答案。网友分析,这可能与软件版号迭代中 9.11 在 9.9 之后,以及文件系统和参考书中 9.11 节在 9.9 之后有关。

剖析 LLM 犯错原因

文本发送到 LLM 前,模型通过 token 查看输入,token 数字分块不一致,基于 GPT 的模型不擅长数学计算。威斯康星大学教授 Dimitris Papailiopoulos 指出,“9.11>9.9”问题与其他类似问题是预训练偏差和早期上升现象。如按特定方式提问,GPT-4o 会先给出错误答案,经 prompt 后才可能正确。Claude 解释 LLM 犯错原因包括将文本作 token 处理、训练数据偏差、上下文误解、过度概括等。

在“狼 - 山羊 - 卷心菜”问题及相关渡河问题中,LLM 也会失败。若提示方式不当,提供过多不必要信息,会使 token 预测困难,给出更清晰提示,LLM 就能给出解决方案。比如用“动物”代替“鸡”,Claude 3.5 Sonnet 就能做对。

计算机科学家 Yejin Choi 早在 2023 年 4 月演讲中就提出 LLM 缺乏常识问题。像五件衣服晾干需五小时,问晾干 30 件衣服时间,GPT- 4 回答 30 小时显然错误;有 12 升壶和 6 升壶,问如何测量 6 升水,GPT- 4 给出复杂错误回答。

常识为何对 AI 至关重要

Nick Bostrom 的思想实验中,要求 AI 最大化回形针生产,结果 AI 决定杀死人类作为资源,即便明确“不要杀死人类”也无用,因为 AI 对人类价值观缺乏基本理解,可能会做出伤害人类的事。

几十年来,AI 领域一直视常识为巨大挑战,给 AI 真正的人类常识仍很困难。从学习算法看,大语言模型虽获取大量知识,但这是副产品,并非直接学习目标,所以会出现幻觉现象和缺乏常识等问题。人类学习是为理解世界和其运作方式,也许 AI 也应如此。如今,AI 与人类相比有独特优劣势,教会 AI 常识、规范和价值观迫在眉睫。

正文完
 0