共计 2803 个字符,预计需要花费 8 分钟才能阅读完成。
“ 甚至我觉得也吊打了 Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。” 镜头前,猎豹移动董事长傅盛难掩兴奋。他口中能吊打国内外文生视频模型的,正是快手可灵视频生成大模型。
6 月 6 日快手发布 AI 视频模型,当天诸多业内人士获邀请码进行第一波测试。从反馈及生成的视频样本看,快手可灵与 Sora 极为相似,第一版五秒视频中,技术路线和训练数据质量都很突出,还能极度真实地还原物理规律,运动合理性、物理特性、概念组合能力和想象力表现优秀。
不过,有业内人士指出,Sora 于今年 2 月公布,训练可能在去年年底就已完成,可灵多出几个月训练时间,且能调用更多训练算力,这是可灵的优势。6 月 21 日,可灵模型推出图生视频及视频续写等新功能,产品功能更丰富。
可灵的表现超出业内预期,关键在于公布前绝大部分 AIGC 从业者对其一无所知。快手通用语言大模型快意作为新品上线,在国内大模型梯队中暂无耀眼表现,知名度不如投入大量营销预算和研发成本的豆包、混元、文新一言、月之暗面等。可灵的出现打破行业认知,为从技术性到产品性的转化开辟了新路径。但惊艳产品距广泛应用和成功商业化还有很大距离,快手能否靠可灵超车并拉开与同行差距,面临诸多风险与挑战。
剑走偏锋的快手
“ 可以说的是,可灵这个事情肯定是一个非常复杂的,重资源投入,多兵种协作的复杂项目,肯定不是一个单一的天才的想法随便搞出来的东西。” 快手视觉生成与互动中心负责人万鹏飞在 2024 北京智源大会先后拒绝几个关于可灵参数、性能的问题后,给出较为实际的回答。
国内 AI 赛道能吸引 C 端目光的部分有限,焦点是百模大战留下的各类语言大模型,月之暗面是典型代表,从默默无闻到估值达 30 亿美金,公司只用了不到 1 年时间,但除有长文本阅读能力的 Kimi 外,C 端对其感知不明显。
另一方面,资本和创业方很纠结,以金沙江创投管理合伙人朱啸虎为代表的现实主义派态度相对悲观。朱啸虎认为这一代大模型创业公司处境比上一代商汤等 AI 公司更恶劣,公司间技术无差异,每代技术都要重新砸钱,投资规模指数级上升。据媒体报道,OpenAI 发布 GPT- 4 后,朱啸虎在朋友圈新判断是,“ 不是深度绑定大厂的模型公司基本已经出局 ”。
在这种复杂环境下,产品创业困难重重。商业化要求下,各大模型厂商加入价格战,即便估值达 30 亿美元的 Kimi 也在通过打赏等方式变现。资本小心翼翼,大厂 FOMO“ 不愿错过 ” 成当下 AI 创业主基调,从这个角度看,可灵的成功更显可贵。
在文生图赛道,有业内人士评论,快手能拿出国内第一个令人惊艳的 “ 准 Sora” 文生视频大模型,与平台深耕视频内容有关。但抖音视频数据更多、算力更强、在 AI 方面投入更大,为何没拿出类似量级的大模型?
从摩根史丹利研报可知,目前可灵表现比抖音和腾讯过往发布的视频生成模型更优秀。从时长看,可灵能生成长达 2 分钟的视频,抖音的即梦目前只支持生成最长 3 秒的视频,腾讯的混元大模型能生成 16 秒。
归根到底,大模型本质是基础研发的较量,必须在基础研发层面下功夫。字节跳动以应用端促进研发,整个字节跳动 AIGC 线条人员混乱,真正技术牛人不多,C 端应用思维主导 AI 平台研发,这可能不是正确方向。
从实践看,与其说可灵产品技术突出,不如说快手在这一赛道策略布局成功。用猎豹傅盛的话来说,“ 可灵的成功,更加证明了,Sora 并不是一项技术性突破,而是产品型图片 ”。可灵的剑走偏锋给行业带来全新启示,但能否就此判断可灵在文生视频赛道与国内 AI 大厂差距已拉开,似乎还需更多实践证据。
能否成为下一个爆款?
尽管可灵已取得不少成绩,但要成为 AI 赛道的下一个 Killing APP,还有很长的路要走。
首先,可灵大规模应用尚需时间。最新交互页面中,申请可灵的人数已达 41 万 +,据接近快手人士透露,可灵虽有超过 10 万 + 使用者,但试用范围仍无法完全匹配市场需求,即便快手内部人员试用也困难。当下使用结论基于内测视频,这可能高估了可灵的模型能力。
同时,可灵对行业来说很神秘,如快手视觉生成与互动中心负责人万鹏飞对各项参数讳莫如深,外界好奇可灵使用了多少算力、算力来自哪里,有无充足推理算力可供大规模公测。
可灵先后推出图片生成视频及视频续写等功能,但测试效果平淡,生成时间不稳定,效果差异化不明显,这些功能尚需进一步优化。
在行业最关心的算力方面,有从业者评估,快手从腾讯云和阿里云租用大批 “ 大卡 ”,自身也有约数千张大卡,多方消息猜测可灵训练算力来源多元化。但根据多方信源估计,文生视频大模型生成一分钟 1080P 视频至少消耗 100 万 Token,推理算力需求远大于文生文,L40 采购难度大,快手可能面临瓶颈,这意味着快手可灵全面投入公测可能还很遥远。
在多个短视频平台及诸多海外社交媒体,可灵几乎成了中国 Sora 的代名词,海外博主一码难求,国内测评博主称已达到免费、可用、可实操阶段,但目前来看,实际差距不小。
某种程度上,可灵是一款战略意义远大于实际意义的产品,技术突出对行业有示范作用,但真正广泛应用似乎还需很长时间。
老铁们的 “ 新希望 ”?
在可灵对外宣传中,其优势简单明了,一是真正可应用,二是视频生成效果好。它不仅能生成大幅度合理运动,模拟物理世界特性,生成的视频分辨率高达 1080p,最长可达 2 分钟(帧率 30fps),还允许用户自由调节视频纵横比。
基于此,外界对可灵商业化想象空间进一步打开。有业内人士总结,在媒体与广告行业,可灵可用于快速生成广告宣传片、新闻报道等,大幅提升生产效率,还可通过数据分析优化内容。在教育与培训行业,可灵能辅助教师制作教学视频,甚至生成虚拟教学场景,为学生提供沉浸式学习体验。在娱乐与社交媒体行业,可灵为社交平台和内容创作者提供的个性化视频生成工具将极大丰富平台内容。
多家券商研究机构对可灵表示乐观,国泰君安互联网传媒研究称,可灵大模型配套建设了高效的大规模自动化数据解决方案,覆盖海量视频挖掘、多维打标筛选、视频描述增强及数据驱动的效果质量评估等多个方面,在国产视频生成大模型中位居前列。
但丰满预期与现实有差距。据接近快手人士透露,当下可灵暂无商业化计划,也不对外提供 API。这意味着从投资层面看,可灵对快手近几个季度业绩贡献不大,从快手近期二级市场表现也能印证这点。
在快手视觉生成与互动中心负责人万鹏飞演讲中,谈到可灵未来时提到,“ 视频创作的门槛和效果的 ROI 大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”
由此可简单猜测,快手或许更倾向于在自有生态中为更多创作者赋能。从另一个视角看,快手面临不小压力,广告和电商增长都受到大厂挑战。可灵若能如快手负责人所言,降低门槛,提升 ROI,吸引更多用户从消费者变成内容生产者,无疑吸引力巨大。
总之,可灵让国内从业者及更广泛受众看到快手在新领域的努力和希望,但从全局看,短期增加营收可能需要更长时间。