共计 1788 个字符,预计需要花费 5 分钟才能阅读完成。
近日,DeepSeek 发布的 R1 模型在整个科技圈引起了巨大轰动,尤其是在美国一直处于领先地位的 AI 领域。R1 模型以更低的成本超越了多个美国头部模型,并且完全开源,甚至有美国 Meta 员工爆料称公司感到恐慌。
本周一,DeepSeek 带来的冲击仍在持续,具体表现为美股大幅下跌,尤其是半导体股,从盘前到收盘一路走低。英伟达更是创下周一收跌 16.79% 的纪录,市值蒸发 5900 亿美元,这一跌幅创下了美国金融史记录。
周一收盘时,英伟达股价报 118.42 美元,跌幅 16.97%,单日蒸发市值近 6000 亿美元,创美股最高纪录;台积电股价报 192.52 美元,跌幅 13.23%;ARM 股价报 145.96 美元,跌幅 10.19%;阿斯麦股价报 690.15 美元,跌幅 5.75%;美光科技股价报 91.11 美元,跌幅 11.71%。此外,美股三大指数收盘涨跌不一,道指涨 0.65%,标普 500 指数跌 1.46%,纳指跌 3.07%。
DeepSeek 给了美国科技巨头一点“中国震撼”,英伟达发言人 27 日表示,“DeepSeek 是一项出色的人工智能进步,也是测试时间缩放的完美例子。”“DeepSeek 的工作说明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口管制的计算。”
然而,DeepSeek 显然不准备就此止步。1 月 28 日凌晨,DeepSeek 发布了名为 Janus-Pro 和 JanusFlow 的一系列开源多模态 AI 模型。DeepSeek 表示,这款大模型是 2024 年 11 月发布的 JanusFlow 大模型的高级版本;相较前代模型,Janus-Pro 优化了训练策略、扩展了训练数据,模型也更大。Janus-Pro 在多模态理解和文本到图像的指令总功能方面取得了重大进步,还增强了文本到图像生成的稳定性。
DeepSeek 的展示图显示,在文生图 GenEval 和 DPG-Bench 基准测试中,Janus-Pro-7B 的准确率较前代 Janus 大幅提高,准确率测试结果分别为 80% 和 84.2%,高于包括 OpenAI DALL-E 3 在内的其他对比模型,Janus 的准确率分别为 61% 和 79.7%。
其中,Janus-Pro 是统一多模态与生成的创新框架,通过解耦视觉编码的方式,提升模型在不同任务中的适配性与性能。该模型可适配视觉问答、图像标注等多模态场景。而 JanusFlow 是通过生成流与自回归语言模型融合实现统一框架;不仅能处理理解任务,还能够生成高质量图像。这标志着 DeepSeek 将进军文生图领域。
DeepSeek 的 R1 模型能让美国众科技公司关注并对美股造成巨大影响,主要有两个核心原因。一是在目前中美都在 AI 赛道发力的情况下,DeepSeek 撼动了美国一直以来保持的领先地位。自 2022 年底 GPT3.5 发布以来,无论是 OpenAI,还是谷歌、苹果,美国科技公司在大模型领域都处于引领者姿态;而中国的科技公司虽然也紧随其后开发出多个大模型,且有一定的实际应用,但一直处于追赶者地位似乎是业内共识。而 DeepSeek 打破了这种“刻板印象”,其 R1 模型在第三方测试中,表现全部优于美国一众头部模型。因此,Meta 等公司对此“表现紧张”不难理解。
第二个核心原因是,当前受美国制裁影响,中国公司无法使用高端芯片,在算力资源上处于劣势。然而,就是在这种情况下,DeepSeek 仍然能够开发出领先模型,一定程度上说明当前 AI 大模型所需的算力资源被高估了。举个例子,此前被认为需要 1 万块顶级 GPU 才能开发的产品,现在 100 块“阉割版”GPU 也能实现。DeepSeek 为其他科技公司提供了新的选择,即在有限条件下,可以通过技术优化而非大量购买芯片进行 AI 研发。所以这就对 AI 高端芯片产品需求造成影响,因此英伟达、台积电、阿斯麦等芯片产业链企业股价和市值下挫。
此前,DeepSeek 创始人梁文锋在接受采访时表示,中国 AI 不可能永远处在跟随的位置。经常说中国 AI 跟美国有一两年差距,但真实的差距是原创和模仿之差。如果这个不改变,中国永远只是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。