共计 1267 个字符,预计需要花费 4 分钟才能阅读完成。
近日,谷歌又有人员变动,这次是 AIGC 核心成员中的文生图核心团队。Imagen 论文的四位核心作者离开谷歌,准备创立自己的 AI 公司。虽然公司名称尚未公布,但新公司的发展方向已明确:以 Imagen 为基础,继续推进文生图项目,并拓展到视频领域。
新公司的四位联合创始人 Chitwan Saharia、William Chan、Jonathan Ho 以及 Mohammad Norouzi 均来自谷歌。他们在 AIGC 的文生图板块有着丰富的经验,是谷歌对抗 DALLE- 2 的重要力量。
Chitwan Saharia 本科毕业于孟买理工学院计算机科学与工程专业,在孟买理工学院和蒙特利尔大学担任过研究助理。2019 年加入谷歌,去年 12 月离职。他在谷歌期间主要负责领导 image-to-image 扩散模型的工作,拥有语音识别和机器翻译的经验。
William Chan 同样出身计算机工程,先后就读于加拿大滑铁卢大学、卡内基梅隆大学,并在新加坡国立大学交换一年。在卡内基梅隆大学获得博士学位后,他还在乔治布朗学院学习了 3 年烘焙和烹饪。2012 年加入谷歌,去年 5 月离职时已是谷歌大脑多伦多的研究科学家。
Jonathan Ho 毕业于 UC 伯克利,不仅是 Imagen 论文的核心贡献者,还是 Diffusion Model 奠基之作的一作。他曾在 OpenAI 工作一年,2019 年加入谷歌,去年 11 月离职。
Mohammad Norouzi 在多伦多大学计算机科学博士就读期间获得谷歌 ML 博士奖学金,毕业后加入谷歌大脑工作 7 年,离职前是高级研究科学家,工作重点是生成模型。他还是谷歌神经机器翻译团队的原始成员和 SimCLR 的联合发明人。
这已经不是谷歌第一次出现人员流失的情况。在过去的两个月里,至少有 4 名谷歌大脑成员加入 OpenAI,情人节时也有人员叛逃。此次四人的出走,或许与谷歌在执行能力方面受到的质疑有关。
Imagen 是谷歌发布的文生图模型,在 DALL-E 2 发布一个月后问世。它开辟了 text-to-image 新范式,纯语言模型负责编码文本特征,图像生成工作由图像生成模型完成。Imagen 包含一个冻结的语言模型 T5-XXL 作为文本编码器,图像生成部分使用一系列扩散模型。
与之前的文生图模型不同,Imagen 允许使用大的引导权重,不会使样本质量下降,生成的图像具有更高的保真度,并且能更好地完成图像 - 文本对齐。谷歌通过对 Imagen 的研究,优化了扩散模型,解决了增加无分类器引导权重时出现的问题,改善了扩散模型多样性不足的问题,并对经典结构 U -Net 进行了改进。
基于 Imagen,谷歌还推出了能“指哪打哪”的文生图模型 DreamBooth,以及 AI 生成视频选手大将 Imagen Video。但由于安全、AI 伦理和公平性等方面的考虑,Imagen 和 Imagen Vedio 都没有直接开源或开放 API,甚至连 demo 都没有。
此次四人出走创业,或许是为了将项目放到一个更开放的 AI 环境中。同时,这也是热钱大钱向 AIGC 汹涌的结果。随着 AIGC 创投热潮在太平洋那头的开启,相信在太平洋这头也会有更多的动作。