AI重现经典《猫和老鼠》爆款30秒视频

5次阅读

共计 1327 个字符,预计需要花费 4 分钟才能阅读完成。

近年来,人工智能在内容生成领域取得了突破性进展,尤其是在动画视频制作方面。特别是借助 Transformer 架构和 Test-Time Training(TTT)技术,AI 能够在无需剪辑的情况下,根据简单提示自动连续生成长达一分钟的动画视频。这一技术不仅让人们重新体验经典动画《猫和老鼠》,还开辟了全新的内容创作方式,让童年的记忆得以以全新的面貌延续。

经典动画的 AI 重现:无需剪辑的自动续写

《猫和老鼠》这部诞生于 1940 年的动画,至今已有 85 年的历史。通过先进的 AI 技术,只需输入关键提示,AI 模型就能直接生成全新的一集动画,画面流畅,情节连贯,完全无需人工剪辑。这一切的实现,得益于融合了 Transformer 和 Test-Time Training 的创新架构。研究团队利用预训练的 Transformer 模型,在嵌入 TTT 层后,仅用 5 亿参数的模型,便可以理解复杂的故事提示,输出长度达 60 秒的连续动画视频。

技术创新:TTT 层与视频生成新可能

TTT 层的核心思想是在传统 RNN 基础上引入神经网络作为隐藏状态的更新机制,采用两层 MLP,将上下文信息压缩成隐藏状态的权重。通过自监督学习,模型能从噪声或部分信息中重建完整输入,与去噪自编码器类似。与传统线性注意力不同,TTT 层增加双倍隐藏单元,增强表达能力,使模型在理解复杂剧情和动作时表现卓越。它还支持端到端训练,界面与其他网络层兼容,可以无缝替换和插入多种架构中。

应用场景:从故事概要到视频

研究团队用三种文本提示格式(简要剧情、大量详细描述、分镜脚本)指导视频生成,利用 Claude 3.7 Sonnet 实现格式转换。场景被划分为多个短片段(通常 3 秒),每个片段配以详细的脚本,模型逐一生成,然后拼接成完整视频。为了提升效率,还采用了大批量并行处理和片上张量并行技术,大大缩短了训练时间,提高了处理能力。

内容效果:高保真、连贯的动画

以“汤姆追杰瑞”为故事线生成的动画显示,模型能逼真还原角色动作,保持场景一致性,并展现自然流畅的运动效果。除了经典追逐场景,也加入了创新的剧情元素,如汤姆误入办公室打断会议,以及杰瑞在水下寻找宝藏等丰富剧情。这些内容的生成,得益于 TTT 层处理长序列信息的能力,避免了传统方法中的场景变形和动作不自然的问题。

性能评估:优越的场景一致性与动作自然度

采用多维度评估体系,包括文本一致性、动作自然度、美学质量和时间一致性。研究采用盲测偏好比较,通过 Elo 评分系统,结果显示,基于 TTT-MLP 的模型在所有指标上均优于其他基线方法。尤其在场景连贯和动作平滑方面表现突出,比第二名高出大约 34 Elo 分。这表明技术的实际效果已超过传统的视频生成技术,为未来 AI 动画制作打开了新局面。

未来展望:像素即生成,动画无限可能

随着技术的不断演进,未来每一像素都可能由 AI 生成,动画的创作将变得更加高效、丰富。AI 不仅能复刻经典,更可根据提示自由创作全新故事,让每个人都能成为内容创作者。此次的研究成果,是将 Transformer、TTT 层以及大规模预训练模型结合的突破,为动画、游戏、广告等行业带来了无限可能。相信随着技术的发展,未来我们会看到越来越多令人震撼的 AI 动画作品,让童年的经典永不褪色,创意不断涌现。

正文完
 0