半年回顾：AI视频技术现状与挑战解析

156次阅读

共计 2107 个字符，预计需要花费 6 分钟才能阅读完成。

自今年年初 Sora 模型亮相以来，AI 视频领域迅速升温，国内外公司纷纷推出新工具，试图撼动好莱坞既有格局。国外如旧金山的 Luma 发布了 Dream Machine 视频生成模型，推出电影级的宣传片并向用户免费开放体验。另一家老牌 AI 视频初创 Runway，也启用了 Gen-3 Alpha 模型测试，强调细节如光影效果的生成能力。

国内方面，同样不甘示弱。快手发布的可灵 Web 端能生成最长 10 秒的视频，且支持首尾帧和相机镜头控制。它的 AI 原创奇幻短剧《山海奇镜之劈波斩浪》已在平台播出，全部画面由 AI 生成。与此同时，字节跳动旗下的即梦推出了 AI 科幻短剧《三星堆：未来启示录》，体现了 AI 视频产品的广泛应用。

尽管市场上 AI 视频产品众多，但供大众直接使用的仍非常有限。以国外为例，备受关注的 Sora 半年多来持续内测，仅开放给部分艺术家和电影制作人。国内产品如阿里达摩院的“寻光”和百度的 UniVG 同属内测状态。快手可灵虽向公众开放，但仍需排队申请。

开放使用的 AI 视频工具中，有不少对用户提出一定门槛，如潞晨科技的 Open-Sora，要求具备基础编程知识方能操作。整体来看，AI 视频产品大多采用“文字指令 + 参数设置 + 一键生成”的操作流程，用户先输入描述文字，再选择画幅、清晰度、风格及时长等参数。

生成视频的清晰度和时长是核心技术难点。这与训练所用的素材质量和模型算力密切相关。专家指出，主流 AI 视频模型大多支持 480p 和 720p，少数能达到 1080p 高清。训练数据如果分辨率较低，直接生成高分辨率视频会导致画面崩坏或出现手脚多余的怪异情况，只能靠后期放大和修复技术弥补，但效果有限。

关于视频时长，市面上主流产品通常生成 2 - 3 秒视频，能做到 5 -10 秒已属强者，个别产品如即梦最高支持 12 秒的视频生成。而 Sora 承诺可生成最长 60 秒的视频，因仍处内测，具体表现尚无从验证。

但时长和画面质量只是基础，视频内容的合理性同样关键。技术专家指出，一段精美且有故事性的短片远胜于无聊的循环监控或风景画动图。

选取国内五款热门免费 AI 视频产品：即梦、Morph Studio、PixVerse、艺映 AI 和 Vega AI，使用同一指令——“一个穿着红裙子的小女孩，在公园里喂一只白兔子吃胡萝卜”。测试结果显示，生成速度相似（2- 3 分钟），但清晰度、长度和准确度差距明显。

即梦视频较长，但主角出现变形；Vega AI 也存在类似问题；PixVerse 画质较差；Morph 虽准确，但生成仅有 2 秒；艺映虽画质不错，却丢掉了关键词“兔子”，且风格偏向漫画且不够写实。综合来看，尚无产品能完美满足高标准需求。

AI 视频要想广泛商用，主要得解决三个核心维度：准确性、一致性和丰富性。准确性指生成内容和流程的正确还原，比如两个女孩的数量、动作细节及静态画面中的元素不应错乱。
一致性涉及时空建模，比如主角需持续出现在画面，动作间不能断裂或变形。
丰富性则体现 AI 在缺少外部提示时，能合理补充细节，体现逻辑连贯。

当前大多数 AI 视频工具在这些方面均未达标，仍在探索解决方案。例如，即梦和可灵利用“图生视频”技术，先生成图片再生成视频，借此强化人物一致性。该方法虽不算突破，且只适合短时长视频（约 5 秒以内），图生视频优于纯文字生成视频，但超过 10 秒时容易产生重复或结构扭曲。

许多近期宣称的全流程 AI 制作影视作品，实际多采用图生视频或视频到视频技术。测试显示，即使应用尾帧绑定技术，人物依旧会出现形变或失真，视频连贯性仍依赖一定“运气”。

在全球 AI 领域，美国和中国实力最为突出。数据显示，全球前 2000 名 AI 顶尖机构中，美国占近一半，中国位列第二。虽然近几年在文本生成图像和音乐领域取得飞跃，AI 视频技术进步受限更多。行业专家认为，视频生成技术目前处于类似 GPT- 3 时代的阶段，距成熟商用还有半年左右时间。

视频训练模型需考虑时间轴，远较图像复杂。尽管底层技术如 Transformers 和扩散模型较为统一，训练数据集的丰富度和质量成为竞争焦点。现有数据大多来自图片元素标签，缺少对拍摄镜头角度的描述，企业正通过引入 3D 渲染视频数据补全这一短板。

值得注意的是，AI 视频工具通常擅长特定风格，比如快手可灵优于吃播视频制作，得益于其背后丰富的专项数据支持。

现阶段，在数字人营销等领域，基于文本、图片、视频生成和虚拟形象定制的技术已有一定商用能力。相比之下，纯文本生成视频仍需攻克精准性和可控性的瓶颈。

一些大型 AI 厂商开始与影视制作团队合作，试图推动 AI 视频作品落地，典型案例如字节和博纳联合的《三星堆：未来启示录》、快手原创的《山海奇镜之劈波斩浪》。不过，这类作品尚未广泛流行，整体仍处于试验和展示阶段。

总结来看，AI 视频无疑正快速演进，技术和产品竞争激烈，但距离真正改变或取代传统影视产业还有相当距离。现实中，AI 更可能作为创作辅助工具，提升制作效率和创意表现，而非彻底取代传统影视厂商。

正文完

AI视频人工智能数字内容生产深度学习视频生成

发表至：科技

2025-12-05

0

PS5涨价：索尼互娱能否扭转局面？

对话戴盟机器人CEO段江哗：解锁人形机器人应用新边界

三位00后用AI重塑招聘，Mercor两年估值飙升20亿

元宇宙寒冬：巨头纷纷退出，行业前景何在？

AI创作新势力崛起：AIGC爆发的底层逻辑探秘

半年回顾：AI视频技术现状与挑战解析

AI 视频赛道热闹非凡，产品层出不穷

现有产品虽多，普及仍有限

技术难点集中在画质与视频长度

实测中 AI 视频仍不够精准稳定

AI 视频的核心挑战：准确性、一致性和丰富性

技术发展为何缓慢？数据与算力成关键

当前商用实践与未来展望

B站商业模式困境：UP主停更潮背后的故事

阿里限价看涨回购：如何聪明融资与防稀释

Meta「分割一切」模型新突破：检测、分割、生成三合一

激光雷达玩家盈利曙光初现？成本下降与技术竞争的双重博弈

英伟达：人工智能算力垄断的全球新帝国

马斯克：以商业之力重塑美国航天格局

阿里云全面接入通义千问，张勇展望大模型未来

COMPUTEX 2024: AI驱动掀起PC硬件创新浪潮

AI浪潮下，“美图秀秀们”何去何从？

Apple TV+携手中国移动布局中国市场，流媒体竞争格局再添变数

成年人为何更易陷入AI成瘾？原因揭秘

徕卡、蔡司、哈苏联名手机大战，谁真正实力派？

长盛轴承：掀起人形机器人产业的8倍涨势

张一鸣的TikTok国际化战略揭秘

人人视频为何深陷版权大战？揭秘其生存之道