共计 2107 个字符,预计需要花费 6 分钟才能阅读完成。
AI 视频赛道热闹非凡,产品层出不穷
自今年年初 Sora 模型亮相以来,AI 视频领域迅速升温,国内外公司纷纷推出新工具,试图撼动好莱坞既有格局。国外如旧金山的 Luma 发布了 Dream Machine 视频生成模型,推出电影级的宣传片并向用户免费开放体验。另一家老牌 AI 视频初创 Runway,也启用了 Gen-3 Alpha 模型测试,强调细节如光影效果的生成能力。
国内方面,同样不甘示弱。快手发布的可灵 Web 端能生成最长 10 秒的视频,且支持首尾帧和相机镜头控制。它的 AI 原创奇幻短剧《山海奇镜之劈波斩浪》已在平台播出,全部画面由 AI 生成。与此同时,字节跳动旗下的即梦推出了 AI 科幻短剧《三星堆:未来启示录》,体现了 AI 视频产品的广泛应用。
现有产品虽多,普及仍有限
尽管市场上 AI 视频产品众多,但供大众直接使用的仍非常有限。以国外为例,备受关注的 Sora 半年多来持续内测,仅开放给部分艺术家和电影制作人。国内产品如阿里达摩院的“寻光”和百度的 UniVG 同属内测状态。快手可灵虽向公众开放,但仍需排队申请。
开放使用的 AI 视频工具中,有不少对用户提出一定门槛,如潞晨科技的 Open-Sora,要求具备基础编程知识方能操作。整体来看,AI 视频产品大多采用“文字指令 + 参数设置 + 一键生成”的操作流程,用户先输入描述文字,再选择画幅、清晰度、风格及时长等参数。
技术难点集中在画质与视频长度
生成视频的清晰度和时长是核心技术难点。这与训练所用的素材质量和模型算力密切相关。专家指出,主流 AI 视频模型大多支持 480p 和 720p,少数能达到 1080p 高清。训练数据如果分辨率较低,直接生成高分辨率视频会导致画面崩坏或出现手脚多余的怪异情况,只能靠后期放大和修复技术弥补,但效果有限。
关于视频时长,市面上主流产品通常生成 2 - 3 秒视频,能做到 5 -10 秒已属强者,个别产品如即梦最高支持 12 秒的视频生成。而 Sora 承诺可生成最长 60 秒的视频,因仍处内测,具体表现尚无从验证。
但时长和画面质量只是基础,视频内容的合理性同样关键。技术专家指出,一段精美且有故事性的短片远胜于无聊的循环监控或风景画动图。
实测中 AI 视频仍不够精准稳定
选取国内五款热门免费 AI 视频产品:即梦、Morph Studio、PixVerse、艺映 AI 和 Vega AI,使用同一指令——“一个穿着红裙子的小女孩,在公园里喂一只白兔子吃胡萝卜”。测试结果显示,生成速度相似(2- 3 分钟),但清晰度、长度和准确度差距明显。
即梦视频较长,但主角出现变形;Vega AI 也存在类似问题;PixVerse 画质较差;Morph 虽准确,但生成仅有 2 秒;艺映虽画质不错,却丢掉了关键词“兔子”,且风格偏向漫画且不够写实。综合来看,尚无产品能完美满足高标准需求。
AI 视频的核心挑战:准确性、一致性和丰富性
AI 视频要想广泛商用,主要得解决三个核心维度:准确性、一致性和丰富性。准确性指生成内容和流程的正确还原,比如两个女孩的数量、动作细节及静态画面中的元素不应错乱。
一致性涉及时空建模,比如主角需持续出现在画面,动作间不能断裂或变形。
丰富性则体现 AI 在缺少外部提示时,能合理补充细节,体现逻辑连贯。
当前大多数 AI 视频工具在这些方面均未达标,仍在探索解决方案。例如,即梦和可灵利用“图生视频”技术,先生成图片再生成视频,借此强化人物一致性。该方法虽不算突破,且只适合短时长视频(约 5 秒以内),图生视频优于纯文字生成视频,但超过 10 秒时容易产生重复或结构扭曲。
许多近期宣称的全流程 AI 制作影视作品,实际多采用图生视频或视频到视频技术。测试显示,即使应用尾帧绑定技术,人物依旧会出现形变或失真,视频连贯性仍依赖一定“运气”。
技术发展为何缓慢?数据与算力成关键
在全球 AI 领域,美国和中国实力最为突出。数据显示,全球前 2000 名 AI 顶尖机构中,美国占近一半,中国位列第二。虽然近几年在文本生成图像和音乐领域取得飞跃,AI 视频技术进步受限更多。行业专家认为,视频生成技术目前处于类似 GPT- 3 时代的阶段,距成熟商用还有半年左右时间。
视频训练模型需考虑时间轴,远较图像复杂。尽管底层技术如 Transformers 和扩散模型较为统一,训练数据集的丰富度和质量成为竞争焦点。现有数据大多来自图片元素标签,缺少对拍摄镜头角度的描述,企业正通过引入 3D 渲染视频数据补全这一短板。
值得注意的是,AI 视频工具通常擅长特定风格,比如快手可灵优于吃播视频制作,得益于其背后丰富的专项数据支持。
当前商用实践与未来展望
现阶段,在数字人营销等领域,基于文本、图片、视频生成和虚拟形象定制的技术已有一定商用能力。相比之下,纯文本生成视频仍需攻克精准性和可控性的瓶颈。
一些大型 AI 厂商开始与影视制作团队合作,试图推动 AI 视频作品落地,典型案例如字节和博纳联合的《三星堆:未来启示录》、快手原创的《山海奇镜之劈波斩浪》。不过,这类作品尚未广泛流行,整体仍处于试验和展示阶段。
总结来看,AI 视频无疑正快速演进,技术和产品竞争激烈,但距离真正改变或取代传统影视产业还有相当距离。现实中,AI 更可能作为创作辅助工具,提升制作效率和创意表现,而非彻底取代传统影视厂商。