共计 1093 个字符,预计需要花费 3 分钟才能阅读完成。
近日,由清华大学孵化的智谱 AI 正式推出了其自主研发的视频生成大模型——清影(Ying)。这款产品凭借强大的多模态生成能力,成为国内首个实现文本到高质量视频转化的创新成果。
用户只需输入简单的文字描述(Prompt),并选择心仪的风格,如卡通 3D、电影感或油画效果等,清影便可在短短 30 秒内生成分辨率达 1440×960 的高清视频片段。此外,清影还内置了丰富的背景音乐库,进一步增强了视频的艺术表现力。
作为一家以清华大学计算机系知识工程实验室为基础成立的企业,智谱 AI 汇聚了国内外顶尖的投资力量,包括阿里巴巴、腾讯、小米、美团、蚂蚁集团、红杉中国及高瓴资本等,累计融资超过 4 亿美元,估值突破 30 亿美元。
技术创新与数据积累
智谱 AI 在研发过程中特别强调算法与数据的双重优化。为了克服现有视频素材缺乏有效文字标注的问题,该公司于今年 7 月开源了视频理解模型 CogVLM2-Video,实现了对未标注视频的自动化语义解析。这一举措不仅丰富了训练数据来源,也为后续技术迭代奠定了坚实基础。
值得一提的是,智谱 AI 并未依赖自有视频数据库,而是通过与哔哩哔哩、中央广播电视总台及华策影视等头部平台达成战略合作,获取高质量的专业内容。这种开放合作模式既确保了数据多样性,又降低了运营风险。
算法优化与性能提升
针对视频生成中的关键挑战,例如时间轴对齐、空间维度捕捉等问题,智谱 AI 提出了多项独创性解决方案。例如,其自研的 3D 变分自编码器结构显著降低了视频文件大小至原尺寸的 2%,极大提高了训练效率。与此同时,结合 transformer 架构的创新设计,使得文本与视频之间的交互更加紧密自然。
通过上述改进措施,清影的推理速度相比上一代产品提升了整整六倍,同时支持更高分辨率及更长时间跨度的内容生成。未来版本还将逐步扩展至 4K 画质及更复杂的叙事结构。
应用场景广泛
清影的应用场景涵盖了多个领域,包括但不限于创意短片制作、广告宣传视频定制、怀旧照片动态化处理等。尤其值得一提的是,“老照片动起来”小程序的推出,让用户只需上传静态影像即可快速生成具有故事性的动态作品,唤醒人们对往昔岁月的记忆。
商业模式探索
尽管当前清影主要面向个人用户提供免费服务,但智谱 AI 已经开始尝试构建多元化的盈利模式。例如,企业客户可通过 API 接口接入清影服务,享受定制化的视频生成方案。尽管如此,CEO 张鹏坦言,现阶段的商业化路径仍在摸索之中,团队更倾向于优先考虑技术的普适性与经济可行性。
展望未来,智谱 AI 计划持续深化与各行业伙伴的合作,共同推动 AI 视频生成技术的进步。与此同时,如何平衡技术创新与商业利益之间的关系,将是摆在这家公司面前的一大课题。