共计 4415 个字符,预计需要花费 12 分钟才能阅读完成。
2024 年最后一个月,国产大模型在落地应用方面突然加快了脚步,特别是视频生成模型领域,热度急剧上升。12 月 19 日,快手的可灵更新了 1.6 模型,相较于两周前高调推出的 AI 导演共创计划,此次动作显得较为低调。然而,快手选择在这个时间点升级模型,似乎别有深意。
就在一天前,12 月 18 日,字节火山召开原动力大会,首次对外发布了豆包视频生成大模型。同时,张楠从抖音调任至剪映后首次公开亮相,她简要介绍了早在今年 5 月份就已推出的即梦,这是一款与可灵类似的视频生成工具。会上,张楠对即梦给出了明确的定义:想象力相机,以此对应抖音的现实相机。不过,她并未过多阐述产品细节,仅播放了两个样片,并表示产品和技术都还处于早期阶段。
这或许是为了避免外界将即梦与一周前公布的 Sora Turbo 进行直接比较。OpenAI 在年底进行了为期 12 天的直播,重头戏是在 12 月 10 日,经过长达 10 个月的铺垫,Sora 终于揭开了面纱。其最大亮点是「故事板」(view story)功能,能够将提示词直接转化为剧本。此外,新版 Sora 的视频生成速度更快,编辑功能也更加实用。然而,用户每月需为此支付 200 美元的费用。尽管产品发布当天,服务器因海量流量冲击而崩溃,但吐槽之声仍不绝于耳。
在大模型先锋 OpenAI 之后发布产品,无疑会面临巨大的压力,除非能有更令人惊喜强大的产品亮点,否则很容易被忽视。因此,腾讯混元在 12 月初就抢先推出了视频生成大模型,并将其应用命名为「元宝」。不过,与 Sora、可灵、即梦等既能实现文生视频又能进行图生视频的工具不同,腾讯混元目前仅支持文生视频。
问题在于,当前大模型对语义理解的水平有限,所有文生视频的应用效果都远远无法达到令人满意的程度,也很难吸引 AGIC 创作者积极使用。腾讯自然深知这一点,所以在产品发布当天,便积极释放了开源的信号。
尽管国产视频生成应用已接近 10 多款,但从过去 20 天的情况来看,国产视频生成模型仍掌握在大公司手中,这不仅与大模型的水平、算力有关,视频数据的积累更是起到了决定性作用。而且,大模型早期弥漫的那种 FOMO 情绪(Fear of Missing Out),如今依然有所体现。
正如张楠所说,产品和技术仍处于早期阶段。倘若你了解现在的 AI 视频是如何制作出来的,就不会被那些渲染的画面所迷惑,而只会发出一声惊叹。此刻,仅仅是发令枪刚刚响起,切勿过早下结论。
图生视频是主流?
在我们所接收到的信息中,大模型生成视频似乎轻而易举,只需一段文字就能生成一段视频,且效果堪比影视大片。仿佛人人都能成为大导演,这一切近在咫尺。
然而事实是,AI 视频确实降低了生产门槛,但那些制作精良的广告宣传片、短剧类 AI 视频,仍掌握在少数人手中。
有必要先介绍一下一个 2 分钟的 AI 短片是如何制作出来的。首先,与传统创作类似,创作者需要先拿出脚本,只不过这个脚本是基于 AI 能力能够实现的内容。这一步骤可以借助 AI 工具,ChatGPT、Kimi 和智谱清言是被提及最多的。
其次,根据视频脚本拆解细化后的分镜内容,创作者使用 AI 文生图工具将分镜先以静态图的方式呈现出来。
如果是有专业或商业需求,比如广告、宣传片、短剧等,希望达到传统拍摄的专业与合理性,那么在将静态分镜图转成视频之前,创作者需要对生成的静态图进行 PS 后期处理及图片超分辨率处理,以提高图片的原始质量,从而保证图生视频的质量基础。
之后,将这些图片交给 AI 视频工具进行动态分镜生成。Sora 的 720p 单次可以生成最长 20 秒的视频,而国产大模型一次只能生成 5 – 10 秒的视频。
需要注意的是,除了 Sora,国产 AI 目前还无法基于生成的视频进行修改编辑,所以一个 5 – 6 秒的视频可能需要多次生成才能得到满意的结果。
现在我们看到的 2 – 3 分钟 AI 视频,绝大部分都是图生视频,而且其原料是经过专业处理的图片,需要多次续写并配合后期剪辑才能完成。
虽然目前国产视频生成模型中,只有腾讯混元是免费的,没有收费项目,但文生视频依然面临着激励创作者使用的障碍(今年 5 月份腾讯生成式 AI 产业峰会上,腾讯公布的多模态能力中,提到混元支持图文等形态生成视频能力,只是尚未有图生视频的落地应用):
首先是大模型语义理解能力的局限,视频最终呈现的是否是文字描述的内容,以及是否符合创作者脑海中设想的画面?
其次在于一致性。例如,你希望以「一个穿着淡黄色长裙的女生」为主角,生成一个长 1 – 2 分钟的连续视频。按照现在大模型的能力,你可能需要不断续写几十次甚至上百次才有可能最终实现。但可能每次文字输入生成的视频中,这个女生的五官和穿的长裙款式都不一样,五官可能存在年龄与样貌偏差,服装颜色可能是浅黄、深黄或是橙黄,这就是一致性问题。
然而,图生视频可以提前确定统一色调,在图片处理方面配合 Comfy UI(一款基于节点工作流稳定扩散算法的图形界面)的换脸、换服装等功能做到人物一致性。
文生视频也并非毫无用处,如果你只需要短短五六秒的内容,或者想一键让静图活动起来,那么使用门槛会更低一些。在文生视频领域,尚在内测阶段的腾讯混元(一天只能测试 6 次)确实超出了现在的行业平均水平。
腾讯混元文生视频,提示词为:烟花绽放 / 开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复平静,留下点点星光,寓意瞬间的美好。
不过,也有创作者进行了新的尝试,《烈焰天街》是作者梦罗浮创作的一部 AI 电影,全片 660 个镜头,其中 70% 是文生视频,每个镜头需要 200 – 300 字的提示词。他在分享创作心得时解释,「之所以用文生视频做主体创作,是因为它的表情和肢体动作比图生视频更加真实。」
他还提到,即梦文生视频的效果很像图生视频,「放眼望去,人人都是主演,多人内容场景模型不崩坏」。
即梦文生视频,提示词同样为:烟花绽放 / 开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复平静,留下点点星光,寓意瞬间的美好。
不管怎样,现在我们看到的绝美或是接近物理现实的 AI 视频,都是由少数懂得设计、审美,熟练操作各种工具的专业人士制作出来的。你也可以将这些人理解为 AI 视频的种子用户。一年前,他们中的大部分是 AI 绘画工具的熟练掌握者,活跃在小红书平台。
因此,与豆包、Kimi 等 AI 对话类产品上来就进行海量投放转化的动作不同,可灵、即梦前期更多地是在尽可能网罗种子用户的参与,激励他们创作更多作品,各个社群中的这些创作者都是被争取的对象。其中一些敏锐的创作者,通过售卖 AIGC 培训教程,抓住了一波变现红利。
成为各个应用的超创,创作者就有机会获得平台推送的商单、免费积分,以及与电视台合作的支持。但平台可能也会要求超创每月输出一定数量的视频创作,甚至免费配合产品宣讲教程。
从大厂的一些动作中也能看出应用在引导的用户群体和使用场景。可灵从影视专业人员群体入手,之前他们也提出了 AI + 短剧的计划,意图在影视、广告、游戏等领域嫁接 AI。自上而下渗透的意图十分明显。腾讯混元在介绍中明确提出,可应用于工业级商业场景,例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入了文生图模式,降低了广告主的创作门槛。
看不见的决定因素
尽管即梦和可灵具备图生视频的能力,已经在一定程度上占据了用户的心智,但对于它们而言,未来的道路依然漫长。
除了我们所能感知到的产品特征和差异,国产 AI 视频应用的底层模型架构,存在很大的相似性。腾讯混元和快手可灵都采用了与 Sora 类似的 DiT(Diffusion Transformer)模型架构。包括 MiniMax 的海螺 AI 也是如此。
一种观点认为,与 OpenAI 的其他产品不同,在算力充足的前提下,DiT 架构路径的复刻难度相对较低。这也是国产视频生成大模型在短短几个月内,布局速度和落地结果超出预期的原因。
然而,接下来在一些关键性问题的解决上,就取决于各家公司的底层优化能力和数据训练结果了。AGIC 创作者温维斯 Wenvis 表示,他对 AI 视频应用实现的结果有两个期望:一是能够快速展现出自己脑海中的想法,并且与预期较为相符;二是成为自己的灵感激发器,不一定是成品,但想法会得到启发或提升。
在可灵发起的 AI 导演共创计划中,温维斯是导演王子川的 AI 合作者,他们共同创作了《雏菊》,前期的一个基本想法就是,尽量避开 AI 不擅长的地方。
就目前而言,视频生成模型的共同努力方向主要有几个:一致性、视觉真实度、动态幅度、提示词的语义理解能力等。
例如,尽管很多产品宣称在一致性方面表现不错,但几乎所有公司都仍在默默努力。只有创业公司生数科技曾在今年 9 月高调发布所谓「全球首个支持多主体一致性的多模态大模型」,公司旗下的产品 Vidu 现在已经开放使用,测评反馈显示在 2D 及多主体一致上表现不错,但其缺点是画面太模糊,即使是会员可以享受高分辨率的用户也依然存在这个问题。
再比如,不论国内国外,AI 视频软件的动态幅度都有待提高。最基本的人物开口说话,做一些特定的肢体动作,比如武术、运动体操这类大幅动作,目前所有工具的表现都不尽如人意。
导演俞白眉接触 AI 最想探索的就是与动作连接的部分,他知道 AI 在规定镜头的运动方面并非强项,也不擅长真人动作。但他还是积极参与了可灵的导演计划,希望尝试创作出一些之前从未见过的动作片段。
谈及整个创作过程,他表示一言难尽,结果也差强人意,「这些作品都是涂鸦」。但他也提到,中间存在一些趣味,自己学到了很多东西。
俞白眉的感受可能会得到不少人的共鸣。所以,创作者会根据不同的题材、不同的需求,使用不同的 AI 视频工具。也许个人创作偏好会导致他使用某个工具的频率更高一些,但现在还远未到哪款产品形成绝对优势的阶段。
国产 AI 生成视频应用中,快手旗下的可灵是唯一公布过数据的。快手第三季度财报发布时,可灵 9 月份的月活超过 150 万。到了 12 月 10 日,累计用户数达到 600 万,生成视频数量为 6500 万,图片超过 1.75 亿张。快手还公布过商业化成绩,单月流水超过千万元,据说为此内部还进行了庆祝。
可灵是国产大模型生成视频动作相对较快的一个,有一种抢跑加速的紧迫感。今年 6 月产品上线,当月就推出了图生视频以及续写视频,从一开始的最长 2 分钟延伸至 3 分钟。而且很早就明确与短剧、影视相结合,可灵生成的最早流传到海外的视频还被马斯克看到并点评。
即梦推出的时间比可灵更早,但其对外释放的信息和动作没有可灵频繁。不过,由于字节的 AI 部署能力和广泛的用户基础,即梦在创作者群体中的呼声也很高。
叶锦添有两句话说得非常好:如果用 3D 传统的方式,每次想尝试一样东西都要花费同样的时间,但 AI 却不用。这给了我不同的速度感,我就开始去领会,AI 会影响我看待这个世界的方式。他还说,AI 有时候走得比我们快,所以有可能带来另外一种经验。AI 一天,人间一年。