共计 1675 个字符,预计需要花费 5 分钟才能阅读完成。
随着 DeepSeek 的普及,AI 逐渐成为人们生活和工作中不可或缺的工具。然而,随之而来的幻觉问题却成为不少用户的困扰。
近期一条关于“80 后死亡率突破 5.2%”的虚假新闻在社交媒体传播开来,据上海网络辟谣介绍,该信息疑似源于 AI 对话生成。这种看似可信却完全错误的数据是如何产生的呢?
最近我也尝试用 AI 对话替代传统搜索方式,发现确实存在不少隐患。例如在撰写京东外卖相关稿件时,我询问 DeepSeek‘山姆每年为京东即时零售带来多少订单’,它给出了一个确定无疑的数据并声称京东将与山姆展开新合作。然而,我并未找到该数据来源,且对合作预测感到惊讶——要知道山姆和京东去年才结束合作关系。
这便是 DeepSeek 的典型幻觉表现。幻觉作为大模型的固有问题,由于其基于概率选择答案机制,容易构造出看似合理但实际上毫无依据的回答。所有大模型或多或少都会遇到这种情况,但 DeepSeek-R1 尤为突出,在 Vectara HHEM 人工智能幻觉测试中达到 14.3%,几乎是 DeepSeek-V3 的四倍,远远超出行业平均值。
幻觉如何影响日常生活
球球是一名即将毕业的大四学生,目前在一家实验室实习。他熟练掌握了 Kimi、豆包等 AI 助手,并对 DeepSeek 充满期待。然而,自从开始使用 DeepSeek 撰写论文以来,他已经不再直接依赖 AI 生成的内容。
网上流传的一篇文章指出,DeepSeek 生成的一份综述中所有参考文献均为虚构。这位网友亲自核查后发现,这些所谓的参考文献竟无一真实存在!这一案例引发了业内外广泛关注,因为此前从未有人报告过类似情况。
类似的现象还包括有人询问 DeepSeek 上海有多少家麻六记以及具体位置,结果得到四个错误地址;还有玩具博主要求查找国内儿童玩具理论文献综述时,DeepSeek 引用了一本不存在的书籍《玩具与儿童发展》,并且在解释为何虚构时显得颇为狡猾。
音乐自媒体“乱弹山”进一步揭露了 DeepSeek 善于利用陌生领域术语胡编乱造的特点。例如,一篇小红书笔记声称 DeepSeek 揭示了五月天歌曲中的隐藏彩蛋,但经核实发现内容纯属虚构。同样地,当被要求解析韩国音乐人 Woodz 的创作风格时,DeepSeek 列出了一系列不存在的技术细节,类似于初学者刚学会几个专业术语便随意套用。
幻觉的双重影响
尽管幻觉并非致命缺陷,但它确实是大模型设计上的先天不足。在早期研究中,幻觉被视为积极信号,表明 AI 具备产生智慧的可能性。然而,随着 AI 具备判断力后,幻觉逐渐被定义为错误和偏差的表现。在 LLM 领域,幻觉已成为每个模型都无法回避的局限性。
简而言之,LLM 在训练过程中会将大量数据压缩抽象化,输入的是内容之间的数学关系而非具体内容本身。这意味着即使模型输出的信息看似连贯流畅,实际上仍可能存在偏差。
不同研究还将幻觉细分为认知不确定性、偶然不确定性或由数据源、训练过程及推理阶段引发的不同类型。不过,OpenAI 等机构的研究表明,通过加强推理可以显著降低幻觉发生率。
例如,用户只需在提示词中加入‘让我们一步步思考’,就能促使模型生成 chain-of-thought(CoT),从而提高推理准确性。遗憾的是,DeepSeek-R1 的表现恰恰相反。它在数学推理方面表现出色,但在涉及创意创作的任务中则极易胡编乱造。
应对幻觉的有效策略
那么,普通人在日常生活中该如何防范幻觉带来的风险呢?互联网资深产品经理 Sam 分享了他的经验。
对于开发者而言,两种主要手段可以缓解幻觉问题:一是调整 API 调用时的参数,如 temperature 和 top_p 等,二是选择可靠的内容生态系统。对于企业用户,还可以借助 RAG 技术构建权威数据库以规避幻觉。
尽管如此,这些方法并不适合普通消费者。针对个人用户,有两个较为实用的办法:一是多方查询交叉验证,二是明确告知 AI 只提供已知信息即可。前者尤其适用于非专业场景下的信息获取,后者则能有效限制 AI 生成虚构内容。
此外,Sam 强调,尽管 DeepSeek 更加智能化,但也正是这种特性为我们提供了对抗幻觉的机会。通过巧妙运用 AI 的优势,我们可以更好地驾驭这项技术。