共计 3902 个字符,预计需要花费 10 分钟才能阅读完成。
快手自研的视频生成大模型「可灵」一经上线,便在行业内引发了不小的轰动。截至目前,申请使用的预约人数已经超过了 6.5 万。
OpenAI 的文生视频 Sora 发布后一直处于内测状态,外界无法使用。而快手「可灵」发布即测试,用户通过快手旗下创作工具快影 App,就能直接申请公测。通过后可生成 2 分钟左右、分辨率为 1080p 的文生视频,视觉效果并不逊色于 OpenAI 的 Sora。
文生视频对算力资源要求极高,模型能力维度要求也更高,国内大模型厂商在此领域的竞争尚不充分。令人意外的是,快手「可灵」成为国产大模型中率先交出成果的一家,甚至早于字节跳动。不过,快手的这一突出优势恐怕难以长久保持。有行业知情人士透露,字节跳动的视频生成大模型也正在内测中,预计很快就会发布,且大概率会通过旗下创作工具剪映最先上线。
6 月 13 日,就在「可灵」上线一周后,Luma AI 发布了最新文生视频模型 Dream Machine,并向所有用户免费开放使用。该模型效率极高,每 120 秒就能生成 120 帧画面,还能快速生成 5 秒钟具有电影级别视觉效果的视频片段。此外,Luma 的模型在美学风格选项上比快手「可灵」更为丰富。
越来越多的竞争对手正在涌入这一领域。大模型行业分析人士认为,6 月底之前,大模型厂商都会不断推出 Sora 类模型产品,文生视频和图生视频大模型将遍地开花。此前各家大模型厂商其实都已具备视频生成能力,只是由于算力成本以及视频效果尚未全面优化,所以并未全面铺开。
弯道超车字节?
「可灵的效果在目前中国 Sora 类模型中堪称第一,来自快手团队着实让人意外。」行业分析人士如此评价。
快手自研视频生成大模型「可灵」上线后,引发外界意外的原因主要有两点。一方面,其视频生成效果能够与 Sora 相媲美;另一方面,它出自快手团队。在之前的大模型竞争中,快手并非备受瞩目的第一梯队成员。快手此前发布的通用大语言模型「快意」、文生图大模型产品「可图」,影响力都较为有限,直至如今的「可灵」。
从快手「可灵」公布的数据来看,中国版 Sora 确实是其对标目标。
在技术路线上,快手「可灵」采用了与 Sora 类似的 DiT 架构,用 Transformer 取代了传统扩散模型中基于卷积网络的 U -Net。快手大模型团队还自研了一款 3D 时空联合注意力模块和 3D VAE 网络,以实现更好的时空运动建模与更高效的隐空间编 / 解码。
从「可灵」的官方网站上,能清晰看到其产品卖点。
最引人注目的是,可灵支持生成长达 2 分钟的 30 帧视频,分辨率最高可达 1080p,还能自由定制宽高比,这一点远超 Sora 和国内大模型厂商。在生成视频的效果上,可灵强调自身具备生成大幅度合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
在传播方面,「可灵」与以往国内大模型的发布方式有所不同。它最先在国外社交媒体上引发关注,随后在国内热度上升,呈现出「出口转内销」的特点。
在推特上,关于「可灵」的使用评价和评测非常多。
「感觉大家也别等 Sora 这种又贵又费时的工业级 AI 了,先试试可灵,能免费使用。快手这次真的给人惊喜。」
「与国外的 Sora 视频生成大模型相比,中国大模型开发者更了解本土文化,生成的内容也更能满足本土用户的需求。」
「下午充了一个快影的年费会员,好像就跳过了快手可灵的排队,直接可以通过更改 prompt 生成视频了,效果很惊艳呀。生成一个视频的时间,在 VIP 会员下,大概需要 3 分钟。」
正是借助国外社交媒体的热度,「可灵」的热度不断攀升。发布一周后,快手才正式在官方公众号上推荐这款产品,标题为「今天你‘可灵’了吗?」
事实上,腾讯和字节等互联网公司同样拥有视频生成大模型,只是尚未完全公测,或者效果不尽如人意。字节跳动剪映旗下的产品「即梦」具备短视频生成功能,用户可以选择运镜类型、视频比例和运动速度,生成 3 – 6 秒的视频。然而,在视频呈现效果和时间长度上,「即梦」并未展现出能与 Sora 比肩的优势。
这更凸显了快手「可灵」令人惊讶的优势。因为行业一直认为,要扎实做好模型训练,本质上不存在弯道超车的情况,如果基础模型做不好,文生文和文生图都难以做好,更别提文生视频了。但快手的视频大模型却实现了奇袭成功。
可灵背后的人
谁才是「可灵」背后的关键人物呢?这或许是一个人才流动、前赴后继的故事。
就在快手「可灵」正式发布的前几天,快手专家研究员王鑫涛对外做了一个《视频生成的初探及其可控性研究》的学术分享,这被视为快手内部对「可灵」大模型技术层面的思考,相关 PPT 也很快流传出来,成为大模型行业研究的资料。
「可灵」发布之后,王鑫涛又出现在深圳的一次人工智能学术分享会中。他提到,在追赶 Sora 的过程中,面临的核心挑战在于,如何在长视频和长镜头中学习到物理规律,从而确保生成的视频具有高度的物理一致性。
因而这是王鑫涛认为最值得深入研究的问题,「传统上,AI 生成的视频往往局限于单一镜头,缺乏复杂场景下的连贯性和真实感。然而,Sora 却能在复杂的长视频中实现镜头的流畅切换,同时保持强大的三维、时序和物理一致性。」
实际上,王鑫涛入职快手的时间并不长,目前是快手视觉生成与互动中心的高级研究员,隶属于快手多模型与 AIGC 部门,负责视觉内容生成方面的研究。公开资料显示,去年他还是腾讯 AI 实验室的高级研究员,领导了视觉内容生成 (AIGC) 方面的工作。
可以说,快手「可灵」的奇袭,离不开王鑫涛这样来自腾讯的前 AI 力量的贡献。
此前腾讯混元开源混元大模型时,就已公开其具备文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,并且已经支持 16s 视频生成。当时混元大模型文生图负责人芦清林就提到,不同模态之间的对齐是难点之一,混元想做视频和音频的同时生成,但要解决二者用一个模型输出的对齐有很大困难。
另一方面,「可灵」出圈的背后,也意味着昔日快手 AI 团队成员的某种失落。
前快手技术副总裁王仲远,如今已是北京智源人工智能研究院院长。去年 12 月,快手进行组织架构大调整,主站、电商与商业化三个事业部下属都进行了变革,而负责 AI 业务的王仲远不再担任任何职务。
仅仅半年前,王仲远作为快手 AI & 用户增长业务负责人,在快手创作者大会上首次公布了快手 AIGC 的进展,其核心目的是提升短视频内容的创作力和生产力。当时快手已经开放了「可图」大模型产品,支持文生图和图生图两类功能,还上线了 20 余种 AI 图像玩法。
整个 2023 年,快手缺少 CTO,也是快手大模型组建团队和业务落地的一年。从组织架构上看,快手大模型团队隶属于快手社区科学线,业务涵盖大语言模型、文生图大模型、视频生成大模型等多个方向。不过,大语言模型和文生图模型相比同行表现平平。
中国版的 Sora 想必也是王仲远所期待的,只是不知他如何看待「可灵」。
离开快手之后,王仲远代表智源研究院对外接受采访时,谈及 AGI(通用人工智能)正在加速到来。他表示,过去觉得实现科幻片里超级人工智能的场景还有四五十年,现在感觉可能再用四五年 AGI 就会诞生。
「Sora 的出现是一个划时代的时刻,它真正的价值并非文字生成精美的视频,而是表明大模型可能具备了理解三维世界的能力。换句话说,Sora 初步展现了世界模型上的 scaling law(规模法则)。」王仲远认为。
第一能维持多久?
当下的快手「可灵」备受好评,但其国内 Sora 第一的位置能维持多久呢?
「可灵」唯一的使用渠道是快手创作工具快影 App,但快影 App 的下载数据并没有明显波动。根据七麦数据,App Store 近七日日均下载量仍维持在 2 万左右,在应用(免费)和摄影与录像(免费)榜单上的排名依然稳定,没有太大变化。
从商业路径来看,目前「可灵」吸引的更多是 C 端消费者。与文生图和文生文等模型在广告等领域广泛的使用场景相比,文生视频大模型的使用场景依然有限。所以其策略通常是先服务于内容生产者,不断扩展消费端的使用场景,最终吸引 B 端客户和商家付费使用。更重要的是,国内 Sora 第一的竞争对手正在赶来。
一方面是国内市场,据消息人士透露,字节跳动旗下视频生成大模型也在内测中,估计很快发布,也将借助旗下创作工具剪映上线。对剪映来说,此前已上线的「即梦」已经具备文生视频大模型的相应功能,只是目前这部分功能的优化程度还不够。
而变化更快的是国际市场,6 月 13 日,Luma AI 首发了自己的视频生成模型 Dream Machine,用户可以通过文字或图片生成高质量的高清视频。比快手「可灵」更进一步的是,Luma 实现了免费全量开放,登录即可使用,无需预约等待。
但与快手「可灵」面临的问题一样,Luma AI 也面临算力不足的问题,使用时需要长时间等待,而且等待结果也有可能是生成内容失败。所以算力是制约文生视频大模型发展的最大瓶颈。
大模型行业此前公开过相关数据,大模型要达到 Sora 类似的水平,就需要有千卡级别的算力,进一步优化能力则需要万卡级别的算力。这意味着需要具备大规模算力集群的调动能力,无论是使用英伟达的旗舰 GPU 芯片,还是华为昇腾的国产 AI 芯片。
大模型竞争仍处于初期,AI 大模型本身对云服务来说是锦上添花。如何将应用落地做好,同时降低成本,依然是当下大模型行业面临的共同难题。
相比于字节跳动的大模型策略,快手在大模型上仅有「可灵」这一产品显然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低,通过价格战大幅降低模型推理的单位成本,吸引 B 端客户进入火山引擎的云服务之中。如果字节跳动发布视频生成大模型,那必定是找到了成本更低的路径。
无论如何,追赶 Sora 已成为大模型行业在 2024 年的主要共识和任务之一,快手要稳住国内 Sora 第一的位置,还将面临残酷的考验。