共计 2250 个字符,预计需要花费 6 分钟才能阅读完成。
在 Midjourney 之后,鲜有哪款 AI 绘图工具能够引发如此狂热的关注度。Flux 的问世,象征着 AI 图像生成技术迈向了一个崭新的时代。
马斯克本人曾感叹,真假难辨。起初,一张逼真的 TED 演讲者照片席卷互联网。随后,集成 Flux 模型的 Grok 2 突破了护栏限制,被网友尽情探索。
近期,Flux 开发者纷纷投身于微调 LoRA 模型的工作中。HuggingFace 联合创始人惊呼,Flux 已彻底席卷开源 AI 领域,从未见过一个模型能同时催生如此众多的衍生品和热门示范案例。
一位参与微调的开发者表示:「Flux+LoRA 有望重塑生成式 AI 市场。你可以随时随地生成属于自己的独特形象,无论是变身超人,还是成为绝地武士,只需动动嘴皮子即可实现。」
比如,用户可以将自己塑造为超人形象,手持伸缩光影剑,化身绝地武士,感受原力的召唤。此外,冰雕造型、手持 Switch 游戏机、精灵耳、时装秀等风格各异的形象制作,也变得轻而易举。
Flux+LoRA 掀起创作浪潮
微调 LoRA 模型如今已成为许多开发者的新型娱乐方式。全网已被 Flux+LoRA 全面覆盖,一个人便能组成「复仇者联盟」。
Rundown AI 创始人 Rowan Cheung 利用自己的照片作为数据,借助 Flux 训练了一个 LoRA 模型,再配合 Runway 使其动态化。生成的 TED 演讲者形象照片栩栩如生,充满演讲者的风采,唯一的瑕疵是后期右手手指数量有所减少。
另一张图片展示了超人拯救世界的情景,搭配动画后,让他真正成为了漫威英雄的一员。还有一张展示走秀现场的照片,两边观众热烈鼓掌,仿佛置身 T 台。
Rowan Cheung 还生成了不同风格的自己,与场景完美融合,毫无违和感。他认为,尽管 AI 生成的图像尚无法替代电影或商业广告的完整制作,但在内容创作中已有诸多重要用途,例如新闻配图及短片补充素材(B-roll)。
低成本高效微调
前英特尔 CTO 在 A100 上微调了自己的 LoRA 模型,耗时 75 分钟,成本仅为 7 美元(约 50 元人民币)。另有开发者尝试将自己塑造成恐怖片主角,让人难以分辨是 AI 生成还是现实。
最引人注目的是「超现实主义」微调版本,模糊了想象与现实的界限。这些照片到底是真实的还是 AI 生成的?在 Flux-Dev 中通过 LoRA 训练后,无论是场景复杂性还是真实感都达到了前所未有的高度。
多样风格创意无限
开发者以传奇的 ZX Spectrum 风格为例,微调出类似像素的游戏画面生成 LoRA 模型。生成的图像中包含了龙珠孙悟空、漫威钢铁侠、川建国等形象。
另一位开发者基于 Flux,微调出一个 half_illustration 模型,生成的图片兼具真实照片和动画涂鸦的风格。每次生成图片前,只需在提示开头加上「In the style of TOK」,然后具体描述想要的效果,即可快速生成。
强大的生成能力
开源数据集平台 LAION 利用 Flux 模型,训练出了一个能生成 3 ×3 九宫格照片的模型,且每个格子呈现不同角度的自己。未来自拍一张便足够。
Flux+LoRA 还能展现一个人从幼年到老年的样貌变化,极具趣味性和实用性。
创新的流匹配技术
Flux.1 采用了全新的「流匹配」技术,与传统的扩散模型不同,它通过学习将噪声转换为真实图像所需的精确变化来生成图像。这种方法带来了独特的美学风格,并在速度和控制方面展现出巨大优势。
文本到图像生成的一个主要挑战是准确地将文字转化为视觉表现。Flux.1 在这方面表现出色,即使在复杂的表情包场景中也能很好地完成任务。
例如,一个在水下的「fine dog」表情包,文字为「气候变化问题不大」,光线和质感都非常到位。此外,Flux.1 对光线、阴影和纹理有着敏锐的理解,能始终如一地生成高质量图像。
Flux.1 似乎掌握了各种艺术风格背后的原理,使得创造性的重新诠释成为可能。例如,《神奈川冲浪里》的水彩版本不仅暗示了标志性波浪是模型训练数据的一部分,还展现了「流」技术如何近似颜料在水、纸和墨水中的运动。
Flux.1 擅长构建复杂的场景,以一种既真实又有视觉吸引力的方式放置物体和角色。例如,一个魔法图书馆的图像,书籍在空中漂浮,书架由古老扭曲的根制成。
LoRA 微调的实际应用
一位名叫 Matt Wolfe 的小哥在看到这些酷炫的生成成果后,也跃跃欲试。然而,他的尝试结果却差强人意,生成的图像质量远不如预期。
翻车的原因在于没有使用 LoRA 微调。受到刺激的小哥深入研究后发现,LoRA 模型体积小巧,仅 2 到 500MB,易于与现有模型结合。更重要的是,无需额外算力或全面再训练,就能显著提升画质,赋予 AI 模型独特的风格或生成特殊人物的能力。
遗憾的是,在小哥常用的 Glif 平台上,Flux 并不支持 LoRA。后来他了解到,可以通过 ComfyUI、Replicate、HuggingFace Spaces 或 Fal AI 等平台使用 Flux。
在 Fal 平台上测试后,他发现每百万像素花费 0.035 美元,因此只需 1 美元便能运行模型 29 次,性价比颇高。最终,他选择了 Flux Realism LoRA 进行微调。
经过精心调试,小哥将推理步长设置为 28,CFG 设置为 2,生成的图像效果令人惊喜。唯一的瑕疵是额头皱纹处的打光稍显不自然。
接着,小哥将图像导入 Gen-3 Alpha 中,根据输入的提示生成视频。视频整体流畅,仅在某一刻麦克风「漂浮」起来略显突兀。
小哥再次尝试,生成了第二个视频,这次麦克风显得过于静止。他还加入了全网流行的「爆改自己」潮流,生成了一系列搞笑的照片,并最终将这些照片转化为视频,让自己置身于与死侍同框的画面中。