共计 1419 个字符,预计需要花费 4 分钟才能阅读完成。
当提到 AI 画家画“茶杯中的冰可乐”时,很多人会觉得这个场景其实挺自然的:先画一个茶杯,再画上冰块和可乐,但实际上,情况远没有那么简单。尤其是当我们用最先进的 AI 图像生成模型试图实现这个场景时,结果却总是差强人意。即便是像 Dall ・ E 3 这样配备了大量数据和“聪明”算法的模型,也很难“将冰可乐放进茶杯里”。
这其实是目前 AI 生成图像领域一个被称为“文本与图像不对齐”的核心问题的一部分。在“茶杯中冰可乐”的例子中,模型在画面中看到的往往是一个装满冰可乐的透明玻璃杯,似乎“茶杯”这个概念根本没有被模型正确理解。实际上,隐藏在背后的变量——比如“透明玻璃杯”——从未在文本提示中明确出现,但却直接出现在图像里。这种“隐藏变量”引发的不匹配,业内称之为“潜在概念不对齐(Latent Concept Misalignment, LC-Mis)”。
为何 AI 总“搞不懂”茶杯?
为了探究这个问题的根源,研究者们首先尝试收集类似“茶杯中的冰可乐”的复杂概念对,但单纯依赖人类专家的创造效率极低。于是,他们设计了一个基于大规模语言模型(LLMs)的小系统:用 AI 模拟人类思维,自动生成与“茶杯中的冰可乐”类似的隐藏概念组合。系统会先解释概念背后的逻辑,然后分类生成不同的概念对,让模型帮助“找出”可能的隐含变量。
经过多次尝试,发现目前的自动评估方法在判断生成图像是否符合“茶杯中的冰可乐”时存在明显缺陷,只能通过人工逐一评判。研究团队每组概念对会让 AI 生成 20 张图像,然后由评委打分,评价图像中“茶杯”与“冰可乐”的呈现情况。这种方法的复杂程度表明,单靠自动化指标很难全面反映模型的真实表现,只能依赖人工评估。
创新解决方案:引入作画顺序的 MoCE 方法
针对这个问题,研究提出了一种名为(MoCE)的新技术。团队认为,若不从人类的绘画逻辑出发,AI 的图像生成就缺乏“顺序感”。具体做法是:让模型在绘制时,先专注于画出“茶杯”的轮廓,然后再逐步加入“冰可乐”及“透明玻璃”的细节。这种顺序符合人类的自然作画习惯,能让模型更好理解场景中的核心概念。
操作流程是:首先用大语言模型指示模型应先画“茶杯”,接着在多步采样中专门优化“茶杯”的表现,之后再整合完整的提示“茶杯中的冰可乐”,完成最终的图像。这种逐步积累的方式显著改善了模型对细节的把控,将“茶杯”更准确地呈现出来。
实验验证与效果提升
在大量测试中,研究团队用“MoCE”方法显著减少了“隐藏概念”不对齐的发生比例,也就是说,最终生成的图像中“茶杯”和“冰可乐”更符合人类的直观理解。与仅依赖数据训练的模型(如 2023 年 10 月版本的 Dall ・ E 3)相比,MoCE 的效果甚至超出了部分,尤其是在幽默、细节表现和概念完整性方面。
此外,研究还发现,目前一些常用的自动评估指标如 Clipscore 和 Image-Reward,往往对“茶杯中的冰可乐”打出的分比较低,甚至误判了那些根本不是“茶杯”的透明玻璃“茶杯”。这说明这些指标在检测隐藏变量或隐含概念方面存在“偏见”,难以准确反映模型真实的理解水平。
总结与未来展望
这项研究启发我们:当 AI 尝试模仿人类的创造行为时,简单的“直观输入”不足以让它理解复杂的场景链条。引入“顺序作画”这种人类思维方式,不仅改善了生成效果,也为未来解决“潜在概念”错位提供了思路。未来,随着技术不断进步,我们期待 AI 能更好地理解和再现人类的创造力——不仅是“会画画”,还能“懂得画背后隐藏的故事”。