共计 1381 个字符,预计需要花费 4 分钟才能阅读完成。
谷歌 Gemini 原生图像生成功能又升级啦!这次主打图像质量更好、文本渲染更准确,生成速度更快。
只需一句话,就能将两张图片中的元素丝滑融合在一起,还能实时编辑图像。比如刚说完给图中人物加上眼镜,图片立马就生成好了。
也可以指定仅修改图中某一部分,新图的其他部分能同时和原来保持一致。更有意思的是,搭配 Gemini 2.0 Flash 食用,还能让模型自己构思自己生图。
现在,这些功能都可以在 Google AI Studio 免费试玩,模型请认准“gemini-2.0-flash-preview-image-generation”。开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 集成,每张图片的价格为 0.039 美元(约合人民币 0.28 元)。
实际上,本次升级距离谷歌首次推出 Gemini 原生图像生成功能,仅过去一个多月时间。
那么其实际表现究竟如何呢?我们也第一时间进行了实测。
首先,在谷歌提供的 demo 中,我们看到了它能很好地将完全不同的元素自然融合在一起。于是我们也提供了下面两张原图,要求它帮忙生成量子位周边。实测用时 5.4s,几乎一瞬间就生成了我们想要的图片。
尽管 logo 的颜色还有细微偏差,但整体构图已经很成熟了,处理抠图以及融合都比较干净。
而且上面这个例子还顺道考查了其文字渲染能力,除了中文,我们再尝试一下其他文字。最常见的英文渲染正确,并且还自带艺术字设计。继续换成希腊文(中译为“我爱你”)也有同款优秀表现,仔细对比未发现渲染错误。
OK,短暂告别这一趴,接下来我们测试其换图 or 扩图能力。开启“找茬”模式后,我们不得不承认它确实只更换了吊床颜色,其他素材均和原图一致。同时可以看到,在秒速生图过程中,它还会在接收用户指令后给出自己的理解。
此外,如果只给人物上半身,要求它生成完整人物形象呢?第一次扩图,它只前进了一小步,完成了更多的人物上半身复原工作。新生成的部分看起来也非常合理,从一根蓝色肩带扩展到了背带裤穿搭。不过这不是我们一开始想要的“全身肖像”,所以继续……最终结果如下,人物的比例和姿态都很完美,生成效果着实惊艳。
最后我们也体验了一波实时绘图功能,结论是其原生图像生成的速度确实快。我们先随意画了一个太阳的草图,要求它为太阳加上笑脸,结果立马就搞定了。而且还支持上色,效果也非常不错。
小结一下,从我们的实测来看,升级后的 Gemini 原生图像生成功能确实表现惊艳,尤其在遵循用户指令、文本渲染等方面。
当然,除了我们的测试,更多网友也第一时间分享了各自的玩法。比较经典的就是用来搞装修设计,可以一键测试自己想要的装修风格。不过也有浅浅翻车的,用它来扩图时最后生成的人物比例有点子怪异。与此同时,也有人将它和近期非常火爆的 GPT-4o 生图进行了对比,初步结论是整体仍不如 GPT-4o(doge)。
One More Thing 值得一提的是,谷歌最新生图功能还能搭配 Gemini 2.5 Pro(近期以强悍的代码能力而出圈)食用。只需在提示栏中选择“Canvas”,上传一张图片后输入下列提示词:Transform this image into a code-based representation of its natural behavior.(将此图像转换为基于代码的自然行为表示) 最终就能得到一段视频演示。除了预览效果,还能一键切换查看代码。