共计 942 个字符,预计需要花费 3 分钟才能阅读完成。
OpenAI 全量开放 GPT-4o 图像生成能力,自即日起在 ChatGPT 和 Sora 中,面向所有 Plus、Pro、Team 及免费用户推出。一时间,各种实测结果在网络上迅速传播,其中最令人瞩目的当属其对文本的处理能力。
例如,GPT-4o 能够 100% 还原文字内容,并且可以精确指定文字的摆放位置。像呈现出男人右手举着“a few”,左手举着“words”的画面。它还具备如同连续剧般的表现,能够一边准确生成文字,一边变换人物动作。仔细观察会发现,两张图中白板上男人的倒影也是一一对应的。
昨晚,OpenAI 突然宣布进行一场小直播发布,奥特曼现身其中(此前 GPT-4.5 发布时他因带娃未到场)。直播中展示了诸多玩法,比如制作梗图、文本渲染、多轮交互生成以及指令遵循等。比如直接现场拍摄一张自拍,瞬间就能转成动漫风格,官方还玩梗制作 meme 图,要求在图片中添加“feel the agi”,生成时还会将小写换成更合适的大写。
当下,打开 ChatGPT 就能尝试这些能力。经实测,生成速度较快,大约十几秒就能生成一张图片,但普通用户每天仅有 3 次体验机会。API 预计将在未来几周内逐步推出。
按照官方介绍,作为多模态模型的 GPT-4o 补齐了重要拼图——图片生成,而且在美观与实用方面两手都抓得很出色。
各项能力大升级
首先,OpenAI 宣称 GPT-4o 现在能够精确融合符号和图片。比如直接给出一段文字,它就能生成一张制作精美的菜单。并且支持在多轮对话中逐步调整图片的内容和风格。就像提供一张猫猫原图,然后一步步创建一个游戏角色。
此外,GPT-4o 非常注重细节,官方表示它可以处理多达 10 – 20 个不同的物体,而其他模型一般在处理 5 – 8 个物体时就会遇到困难。
在生成真实图像方面,GPT-4o 也表现卓越。甚至实现了现实版的“照猫画虎”。网友们在看完官方宣传效果后,也纷纷展开实测。经典梗图第一时间被用来测试,生成的画面毫无违和感。甚至复现同款书写图也不在话下。
最近这两天可谓热闹非凡,DeepSeek、OpenAI 和谷歌几乎同时展开竞争。值得一提的是,昨晚 11 点(北京时间)OpenAI 突然宣布将有小发布,而 DeepSeek 刚刚发布了 DeepSeek-v3-0324 的官方技术报告,不禁让人猜测这是否是被 DS 逼出来的新发布。