AI绘画难题:为何它听不懂我们的指令?

13次阅读

共计 1921 个字符,预计需要花费 5 分钟才能阅读完成。

2023 年 AI 绘画的双雄登场

今年,AI 绘画领域因为两款产品的发布而异常火爆。3 月 17 日,百度推出了文心一言,引发网友们的创意爆发,生成了不少有趣的图像。紧接着,3 月 18 日,美国 Midjourney 公司发布了第五版图像生成工具 Midjourney V5,其出色的表现让整个 AI 绘画圈为之沸腾。

这两款产品几乎同时亮相,自然免不了被拿来比较。体验发现,文心一言对于简单且明确的提示能准确生成图像,但涉及成语、专有名词或字面与实际意义不符的表达,表现就会大打折扣。而 Midjourney 则几乎不存在这类理解障碍,且提示词越丰富、精准,生成效果越理想。相反,文心一言的需求描述越复杂,反而容易出现错误。

提示词多了反而出错:文心一言的挑战

网友们调侃文心一言,比如让它绘制“驴肉火烧”“红烧狮子头”,却画出了奇怪的场景或与字面意思大相径庭的形象。尽管百度持续修复部分 bug,但在细节和文化差异的理解上仍显不足。例如输入“虎皮鸡蛋”、“胸有成竹的男人”时,AI 依旧体现为字面直译的画面,画风令人哭笑不得。

更有趣的是,当提示词中明确要求“画一个卫浴水龙头”,文心一言却画出一条水中龙的头像;写“风姿绰约的人”,AI 竟然画了位男士,显然没弄懂这形容的是女性优雅的气质。调试人员修复的速度跟不上网友试探漏洞的脚步。

还有人发现,文心一言似乎是先将中文提示词翻译成英文,再调用某国外作图接口生成图片。例如“水瓜”被画成了“watermelon”(西瓜)、“封面”被理解为英文 cover(覆盖物)而导致图像奇怪,这暴露了系统从中文语言转向英文素材匹配的瓶颈。

Midjourney 优势明显,细节表现更精细

相比之下,Midjourney 无论是第四代还是最新的 V5 版本,都对复杂的句子理解更到位,生成的图像能够准确包含多个人物、多种表情等元素,细节精致且符合提示要求。特别是 V5 版本在画手指这一 AI 绘画传统难题上取得明显进步,手指数量和形态更加自然。

还有网友赞叹 Midjourney V5 所绘的《三体》角色,几乎有了生命力;而文心一言则忽视了角色描述中的具体细节,生成了与期望截然不同的形象。甚至当提示“年轻情侣身穿牛仔裤夹克坐楼顶”分两幅图分别呈现 2000 年和 2023 年北京时,Midjourney 呈现的效果令人惊艳,文心一言则画出毫不相关的内容。

AI 绘画远非简单,面临多重技术难题

人工智能生成图像,表面上看似输入文字,输出图片,但背后存在语义理解、数据标注、算法深度和算力等多层挑战。AI 需要先准确理解复杂的自然语言,再根据训练的大量图像数据完成生成。深度学习对数据的依赖极大,特别是针对中文的词语切分、语义标注工作量惊人,人工分词及标注团队规模往往需要达到数千人。

此外,算法的深度和架构差异显著影响生成质量。有观点认为文心一言目前底层深度神经网络层数远不及 Midjourney 多达十倍,可能还采用拼图贴合式生成,无论是细节颗粒度还是整体视觉效果都较为粗糙。

算力方面,更是行业巨头间的较量。OpenAI 及其合作伙伴利用超过千张显卡的分布式算力训练模型,而部分国内厂商算力体系相对薄弱,限制了模型的规模和复杂度。

中文提示词与多语种素材的匹配难题

AI 作图的另一大难点,在于中文输入与英文素材数据库的衔接。因为训练集多为英文标注,中文词语必须翻译匹配,导致歧义和误解时有发生。虽然有中文标准训练数据,但数量远不足,且更新滞后,无法实时反应新词汇和文化内涵。

对用户来说,如何精准选择提示词与风格,也成为影响图像质量的重要因素。很多新手往往不知如何下词,结果生成的图像往往达不到预期。

行业未来:竞争激烈,进步神速

AI 绘画作为新兴领域,自 2021 年 OpenAI 发布 DALL·E 和 CLIP 以来,经历了从底层大模型到应用爆发的快速发展。2022 年被称为“AI 绘画元年”,Midjourney、Stable Diffusion 等产品推动了市场爆发。2023 年则迎来了更多驱动力,包括微软将 DALL·E 接入必应搜索和 Edge 浏览器,Adobe 发布 Firefly 模型等。

业内普遍认为,虽然当前国内产品在数据量、算法深度和算力方面与国际领先水平仍有差距,但通过补充中文数据、加快迭代速度,未来一年内达到 80%-90% 的国际水平并非不可能。算力瓶颈短期难以跨越,但技术积累和优化同样关键。

总结

AI 绘画吸引了广泛关注和激烈竞争,技术难点远超普通想象。文心一言虽存在诸多短板,但也在快速进步;Midjourney 表现的惊艳效果让市场看到了未来的发展潜力。正确理解语义、完善数据标注、提升算法和算力是实现更优秀 AI 绘画产品的核心。未来,这场激烈的竞赛只会愈演愈烈,AI 绘画也必将成为展示人工智能能力的重要舞台。

正文完
 0