浙大哈佛团队推出低成本LoRA模型,实现媲美GPT4o的图像编辑

9次阅读

共计 1203 个字符,预计需要花费 4 分钟才能阅读完成。

最近,浙江大学和哈佛大学的研究人员开发了一款名为 ICEdit 的新模型,这款模型以极低的成本实现了高质量的图像编辑,其表现甚至可以媲美一些商业顶级模型。

通常来说,想要提升图像编辑的效果,人们往往会依赖于获取更多高质量的训练数据或是训练更大规模的模型。然而,ICEdit 团队选择了另一条路,他们只用了以往工作所用数据量的 0.1%,也就是区区 5 万条数据,以及 1% 的训练参数量(约 2 亿参数),便成功实现了图像的高质量编辑。

核心理念

研究团队认为,让图像编辑变得高效且经济的关键在于充分挖掘文生图模型本身的潜力。具体而言,就是要让这些模型不仅能生成图像,还能准确理解编辑指令并直接应用于图像编辑。

这项研究成果已经在 Hugging Face 平台上引起了广泛关注,不仅登上了趋势榜前五位,还吸引了众多科技博主的关注和讨论。

ICEdit 的设计灵感来源于扩散 Transformer(DiT)模型的强大功能,这类模型在长文本理解和生成高质量图像方面表现出色。研究发现,当使用特定的上下文提示词时,DiT 模型能够很好地保持图像主体的身份信息,这对于实现精确的图像编辑至关重要。

两种编辑框架

为了使 DiT 模型既能接收参考图像又能响应编辑指令,研究者提出了两种免训练的编辑框架。第一个框架基于文生图 DiT 模型,通过图像反演技术捕捉输入图像的特征,并结合上下文提示词生成编辑后的图像。第二个框架则利用图像修补技术,直接将待编辑图像放置于双联图的一侧,另一侧留为空白区域,同样借助上下文提示词完成编辑。

尽管这两种方法初步展示出了良好的编辑效果,但在实际应用中仍存在一定的局限性,比如主体身份可能会发生变化,整体成片率也有待提高。

LoRA 微调与优化

为改善上述问题,研究团队对模型进行了 LoRA 微调,通过引入更多的编辑数据集,特别是来自公共领域的编辑样本,显著提升了模型的编辑成功率。此外,他们还尝试了混合专家 LoRA(MoE-LORA)策略,即根据不同编辑任务的特点分配不同的 LoRA 专家进行训练,从而更好地适应多样化的编辑需求。

经过这样的改进,即便是在参数量远低于其他领先模型的情况下,ICEdit 依然能够在多个指标上取得优异的成绩。

推理阶段的进一步优化

在推理阶段,为了克服因随机初始化噪声导致的编辑效果不稳定问题,研究团队引入了早期筛选推理时间缩放(Early Filter Inference Time Scaling)机制。这一机制允许模型在最初的几步推理中快速评估当前噪声候选的效果,若不达标则立即跳过,避免浪费后续计算资源。

实验表明,采用该策略后,ICEdit 的表现有了质的飞跃,尤其是在指令遵循度、背景保持以及人物身份维持等方面,均优于传统方法。

总结

总体来看,ICEdit 以其独特的设计理念、较低的成本投入以及出色的实际表现,成为了图像编辑领域的一个重要突破。它不仅为相关研究提供了新的思路,也为普通用户提供了更加便捷高效的图像编辑工具。

正文完
 0