视频生成大模型赛道：看似拥挤，实则不然

92次阅读

共计 4415 个字符，预计需要花费 12 分钟才能阅读完成。

2024 年最后一个月，国产大模型在落地应用方面突然加快了脚步，特别是视频生成模型领域，热度急剧上升。12 月 19 日，快手的可灵更新了 1.6 模型，相较于两周前高调推出的 AI 导演共创计划，此次动作显得较为低调。然而，快手选择在这个时间点升级模型，似乎别有深意。

就在一天前，12 月 18 日，字节火山召开原动力大会，首次对外发布了豆包视频生成大模型。同时，张楠从抖音调任至剪映后首次公开亮相，她简要介绍了早在今年 5 月份就已推出的即梦，这是一款与可灵类似的视频生成工具。会上，张楠对即梦给出了明确的定义：想象力相机，以此对应抖音的现实相机。不过，她并未过多阐述产品细节，仅播放了两个样片，并表示产品和技术都还处于早期阶段。

这或许是为了避免外界将即梦与一周前公布的 Sora Turbo 进行直接比较。OpenAI 在年底进行了为期 12 天的直播，重头戏是在 12 月 10 日，经过长达 10 个月的铺垫，Sora 终于揭开了面纱。其最大亮点是「故事板」（view story）功能，能够将提示词直接转化为剧本。此外，新版 Sora 的视频生成速度更快，编辑功能也更加实用。然而，用户每月需为此支付 200 美元的费用。尽管产品发布当天，服务器因海量流量冲击而崩溃，但吐槽之声仍不绝于耳。

在大模型先锋 OpenAI 之后发布产品，无疑会面临巨大的压力，除非能有更令人惊喜强大的产品亮点，否则很容易被忽视。因此，腾讯混元在 12 月初就抢先推出了视频生成大模型，并将其应用命名为「元宝」。不过，与 Sora、可灵、即梦等既能实现文生视频又能进行图生视频的工具不同，腾讯混元目前仅支持文生视频。

问题在于，当前大模型对语义理解的水平有限，所有文生视频的应用效果都远远无法达到令人满意的程度，也很难吸引 AGIC 创作者积极使用。腾讯自然深知这一点，所以在产品发布当天，便积极释放了开源的信号。

尽管国产视频生成应用已接近 10 多款，但从过去 20 天的情况来看，国产视频生成模型仍掌握在大公司手中，这不仅与大模型的水平、算力有关，视频数据的积累更是起到了决定性作用。而且，大模型早期弥漫的那种 FOMO 情绪（Fear of Missing Out），如今依然有所体现。

正如张楠所说，产品和技术仍处于早期阶段。倘若你了解现在的 AI 视频是如何制作出来的，就不会被那些渲染的画面所迷惑，而只会发出一声惊叹。此刻，仅仅是发令枪刚刚响起，切勿过早下结论。

在我们所接收到的信息中，大模型生成视频似乎轻而易举，只需一段文字就能生成一段视频，且效果堪比影视大片。仿佛人人都能成为大导演，这一切近在咫尺。

然而事实是，AI 视频确实降低了生产门槛，但那些制作精良的广告宣传片、短剧类 AI 视频，仍掌握在少数人手中。

有必要先介绍一下一个 2 分钟的 AI 短片是如何制作出来的。首先，与传统创作类似，创作者需要先拿出脚本，只不过这个脚本是基于 AI 能力能够实现的内容。这一步骤可以借助 AI 工具，ChatGPT、Kimi 和智谱清言是被提及最多的。

其次，根据视频脚本拆解细化后的分镜内容，创作者使用 AI 文生图工具将分镜先以静态图的方式呈现出来。

如果是有专业或商业需求，比如广告、宣传片、短剧等，希望达到传统拍摄的专业与合理性，那么在将静态分镜图转成视频之前，创作者需要对生成的静态图进行 PS 后期处理及图片超分辨率处理，以提高图片的原始质量，从而保证图生视频的质量基础。

之后，将这些图片交给 AI 视频工具进行动态分镜生成。Sora 的 720p 单次可以生成最长 20 秒的视频，而国产大模型一次只能生成 5 – 10 秒的视频。

需要注意的是，除了 Sora，国产 AI 目前还无法基于生成的视频进行修改编辑，所以一个 5 – 6 秒的视频可能需要多次生成才能得到满意的结果。

现在我们看到的 2 – 3 分钟 AI 视频，绝大部分都是图生视频，而且其原料是经过专业处理的图片，需要多次续写并配合后期剪辑才能完成。

虽然目前国产视频生成模型中，只有腾讯混元是免费的，没有收费项目，但文生视频依然面临着激励创作者使用的障碍（今年 5 月份腾讯生成式 AI 产业峰会上，腾讯公布的多模态能力中，提到混元支持图文等形态生成视频能力，只是尚未有图生视频的落地应用）：

首先是大模型语义理解能力的局限，视频最终呈现的是否是文字描述的内容，以及是否符合创作者脑海中设想的画面？

其次在于一致性。例如，你希望以「一个穿着淡黄色长裙的女生」为主角，生成一个长 1 – 2 分钟的连续视频。按照现在大模型的能力，你可能需要不断续写几十次甚至上百次才有可能最终实现。但可能每次文字输入生成的视频中，这个女生的五官和穿的长裙款式都不一样，五官可能存在年龄与样貌偏差，服装颜色可能是浅黄、深黄或是橙黄，这就是一致性问题。

然而，图生视频可以提前确定统一色调，在图片处理方面配合 Comfy UI（一款基于节点工作流稳定扩散算法的图形界面）的换脸、换服装等功能做到人物一致性。

文生视频也并非毫无用处，如果你只需要短短五六秒的内容，或者想一键让静图活动起来，那么使用门槛会更低一些。在文生视频领域，尚在内测阶段的腾讯混元（一天只能测试 6 次）确实超出了现在的行业平均水平。

腾讯混元文生视频，提示词为：烟花绽放 / 开篇：夜空中一道火光划破黑暗，烟花升空。高潮：烟花在空中瞬间绽放，色彩斑斓，画面以慢动作和高速摄影交替展现。结尾：烟花逐渐消散，夜空恢复平静，留下点点星光，寓意瞬间的美好。

不过，也有创作者进行了新的尝试，《烈焰天街》是作者梦罗浮创作的一部 AI 电影，全片 660 个镜头，其中 70% 是文生视频，每个镜头需要 200 – 300 字的提示词。他在分享创作心得时解释，「之所以用文生视频做主体创作，是因为它的表情和肢体动作比图生视频更加真实。」

他还提到，即梦文生视频的效果很像图生视频，「放眼望去，人人都是主演，多人内容场景模型不崩坏」。

即梦文生视频，提示词同样为：烟花绽放 / 开篇：夜空中一道火光划破黑暗，烟花升空。高潮：烟花在空中瞬间绽放，色彩斑斓，画面以慢动作和高速摄影交替展现。结尾：烟花逐渐消散，夜空恢复平静，留下点点星光，寓意瞬间的美好。

不管怎样，现在我们看到的绝美或是接近物理现实的 AI 视频，都是由少数懂得设计、审美，熟练操作各种工具的专业人士制作出来的。你也可以将这些人理解为 AI 视频的种子用户。一年前，他们中的大部分是 AI 绘画工具的熟练掌握者，活跃在小红书平台。

因此，与豆包、Kimi 等 AI 对话类产品上来就进行海量投放转化的动作不同，可灵、即梦前期更多地是在尽可能网罗种子用户的参与，激励他们创作更多作品，各个社群中的这些创作者都是被争取的对象。其中一些敏锐的创作者，通过售卖 AIGC 培训教程，抓住了一波变现红利。

成为各个应用的超创，创作者就有机会获得平台推送的商单、免费积分，以及与电视台合作的支持。但平台可能也会要求超创每月输出一定数量的视频创作，甚至免费配合产品宣讲教程。

从大厂的一些动作中也能看出应用在引导的用户群体和使用场景。可灵从影视专业人员群体入手，之前他们也提出了 AI + 短剧的计划，意图在影视、广告、游戏等领域嫁接 AI。自上而下渗透的意图十分明显。腾讯混元在介绍中明确提出，可应用于工业级商业场景，例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入了文生图模式，降低了广告主的创作门槛。

尽管即梦和可灵具备图生视频的能力，已经在一定程度上占据了用户的心智，但对于它们而言，未来的道路依然漫长。

除了我们所能感知到的产品特征和差异，国产 AI 视频应用的底层模型架构，存在很大的相似性。腾讯混元和快手可灵都采用了与 Sora 类似的 DiT（Diffusion Transformer）模型架构。包括 MiniMax 的海螺 AI 也是如此。

一种观点认为，与 OpenAI 的其他产品不同，在算力充足的前提下，DiT 架构路径的复刻难度相对较低。这也是国产视频生成大模型在短短几个月内，布局速度和落地结果超出预期的原因。

然而，接下来在一些关键性问题的解决上，就取决于各家公司的底层优化能力和数据训练结果了。AGIC 创作者温维斯 Wenvis 表示，他对 AI 视频应用实现的结果有两个期望：一是能够快速展现出自己脑海中的想法，并且与预期较为相符；二是成为自己的灵感激发器，不一定是成品，但想法会得到启发或提升。

在可灵发起的 AI 导演共创计划中，温维斯是导演王子川的 AI 合作者，他们共同创作了《雏菊》，前期的一个基本想法就是，尽量避开 AI 不擅长的地方。

就目前而言，视频生成模型的共同努力方向主要有几个：一致性、视觉真实度、动态幅度、提示词的语义理解能力等。

例如，尽管很多产品宣称在一致性方面表现不错，但几乎所有公司都仍在默默努力。只有创业公司生数科技曾在今年 9 月高调发布所谓「全球首个支持多主体一致性的多模态大模型」，公司旗下的产品 Vidu 现在已经开放使用，测评反馈显示在 2D 及多主体一致上表现不错，但其缺点是画面太模糊，即使是会员可以享受高分辨率的用户也依然存在这个问题。

再比如，不论国内国外，AI 视频软件的动态幅度都有待提高。最基本的人物开口说话，做一些特定的肢体动作，比如武术、运动体操这类大幅动作，目前所有工具的表现都不尽如人意。

导演俞白眉接触 AI 最想探索的就是与动作连接的部分，他知道 AI 在规定镜头的运动方面并非强项，也不擅长真人动作。但他还是积极参与了可灵的导演计划，希望尝试创作出一些之前从未见过的动作片段。

谈及整个创作过程，他表示一言难尽，结果也差强人意，「这些作品都是涂鸦」。但他也提到，中间存在一些趣味，自己学到了很多东西。

俞白眉的感受可能会得到不少人的共鸣。所以，创作者会根据不同的题材、不同的需求，使用不同的 AI 视频工具。也许个人创作偏好会导致他使用某个工具的频率更高一些，但现在还远未到哪款产品形成绝对优势的阶段。

国产 AI 生成视频应用中，快手旗下的可灵是唯一公布过数据的。快手第三季度财报发布时，可灵 9 月份的月活超过 150 万。到了 12 月 10 日，累计用户数达到 600 万，生成视频数量为 6500 万，图片超过 1.75 亿张。快手还公布过商业化成绩，单月流水超过千万元，据说为此内部还进行了庆祝。

可灵是国产大模型生成视频动作相对较快的一个，有一种抢跑加速的紧迫感。今年 6 月产品上线，当月就推出了图生视频以及续写视频，从一开始的最长 2 分钟延伸至 3 分钟。而且很早就明确与短剧、影视相结合，可灵生成的最早流传到海外的视频还被马斯克看到并点评。

即梦推出的时间比可灵更早，但其对外释放的信息和动作没有可灵频繁。不过，由于字节的 AI 部署能力和广泛的用户基础，即梦在创作者群体中的呼声也很高。

叶锦添有两句话说得非常好：如果用 3D 传统的方式，每次想尝试一样东西都要花费同样的时间，但 AI 却不用。这给了我不同的速度感，我就开始去领会，AI 会影响我看待这个世界的方式。他还说，AI 有时候走得比我们快，所以有可能带来另外一种经验。AI 一天，人间一年。

正文完