DeepSeek引发AI行业震动,重塑全球大模型格局

3次阅读

共计 5069 个字符,预计需要花费 13 分钟才能阅读完成。

今年春节,一款中国大模型 DeepSeek R1 在全球 AI 圈掀起了巨大波澜,直接对标 OpenAI 去年 9 月发布的 o1 系列模型。其火爆程度令人惊叹,1 月 27 日,DeepSeek 在中国区和美国区苹果 App Store 免费榜上同时冲到下载量第一,单周下载量高达约 240 万次。

在 DeepSeek R1 发布之前,OpenAI o1 让中国大模型厂商们难以企及。然而,DeepSeek R1 的出现,让 OpenAI CEO 奥特曼感叹“这是个令人印象深刻的模型”,英伟达更是称赞其为最先进的大语言模型。更重要的是,与 OpenAI 模型的闭源及 o1 模型付费使用限制不同,DeepSeek R1 不仅开源,还免费供全球用户无限调用。

这场由 DeepSeek 掀起的 AI 风暴,引发了全球范围内 AI 从业者的跟随,同时也引起了一些恐慌和攻击。“大模型开源之王”的 Meta 内部员工爆出“Meta 生成式人工智能部门陷入恐慌”;OpenAI 压力明显,两周内接连发布三个大模型:两个 AI 智能体 Operator、Deep Research、推理模型 o3 – mini。另一方面,1 月 28 日凌晨,DeepSeek 官网连续发布两条公告称,其线上服务受到大规模恶意攻击。DeepSeek 俨然站在了风暴中心。关键在于,DeepSeek 打破了大模型行业拼算力的共识,用不到 OpenAI 十分之一的资源,做出了性能对标 OpenAI o1 的 DeepSeek R1。资本市场也因此受到影响,截至 1 月 27 日美股收盘,美股科技股大跌,费城半导体指数下跌 9.2%、英伟达股价下跌近 17%。

被攻击、被力挺,DeepSeek 被“包围”了

2023 年春节,ChatGPT 点燃了 AI 行业的火种,此后每年春节都有爆火的大模型出现。2024 年是 Sora,2025 年是 DeepSeek。今年,站在 C 位的是中国的深度求索。DeepSeek 连续多日登顶苹果 App Store 全球下载榜首,上线 20 天日活突破 2000 万,这股来自东方的力量冲击了整个 AI 行业,并迅速席卷硅谷。此前,自文本大模型 ChatGPT 问世后,OpenAI 一直是行业范式企业,其他大模型企业多追随其后。例如 o1 大模型,自去年 9 月推出以来,国内大模型企业一直未能推出能与之抗衡的产品。此次,DeepSeek 以更小的算力、更低的成本带来了 DeepSeek R1,让市场眼前一亮。

实际上,与 OpenAI 和其他中国效仿者用数亿美元训练大模型不同,DeepSeek 始终秉持“花小钱,办大事”的思路。早在去年 12 月底,DeepSeek 发布对标 GPT – 4o 的 V3 模型,仅使用 2048 块英伟达 H800 芯片,耗费约 560 万美元。相比之下,GPT – 4o 使用上万块英伟达 H100 芯片(性能优于 H800),训练成本约 1 亿美元。去年 5 月,DeepSeek 发布 DeepSeek – V2,价格仅为 GPT – 4 Turbo 的近百分之一。也是从那时起,字节、阿里、百度等大模型相继宣布降价,DeepSeek 更是一年内 3 次降价,每次降幅超过 85%。在训练成本和价格上,DeepSeek 不走大而全的路线,而是专注细分和创新。比如,它提出了新的 MLA(多头潜在注意力)架构,并与 DeepSeek MoESparse(混合专家结构)结合,将显存占用降至其他大模型最常用的 MHA(多头注意力)架构的 5% – 13%。此外,DeepSeek 通过“数据蒸馏”技术训练模型,用一个高精度的通用大模型当老师,仅用 1 / 5 的数据量就能达到同等效果,降低了成本。

对标 OpenAI 只是表面现象,本质上,DeepSeek 对整个大模型行业造成了冲击,也因此面临前所未有的压力。在登顶中国和美区苹果应用商店 24 小时后,DeepSeek 再次成为焦点:OpenAI 指控 DeepSeek 未经许可“蒸馏”其专有技术,美国多位官员发声支持,包括特朗普的人工智能顾问大卫·萨克斯、特朗普提名的美国商务部长霍华德·卢特尼克。此次争议源于 OpenAI 的最大投资方微软。1 月 29 日,外媒报道称微软安全研究人员发现,DeepSeek 相关人士可能使用 OpenAI 应用程序编程接口 (API),未经授权窃取了大量数据。此外,DeepSeek 的线上服务不断遭受攻击,从最初的 SSDP、NTP 反射放大攻击,到 1 月 28 日增加的大量 HTTP 代理攻击,网络攻击不断升级。

然而,在被质疑和攻击的同时,不少企业迅速适应并拥抱 DeepSeek 带来的新变化。在云领域,华为云、腾讯云、阿里云、百度智能云、火山引擎、京东云、360 数字安全等多平台都宣布上线 DeepSeek 大模型,海外的亚马逊云、微软智能云等云巨头也已官宣支持。在芯片领域,继英伟达、AMD、英特尔等海外芯片巨头加入支持后,国内芯片公司天数智芯、摩尔线程也接连宣布支持 DeepSeek 模型。无论是被攻击还是被支持,DeepSeek 被“包围”在意料之中,这也是行业明星项目的必经之路,只有经得住质疑与对比,才能在“百模大战”中站稳脚跟。

靠技术创新,DeepSeek 掀起 AI 风暴

自 2023 年以来,大模型行业新闻不断,但堪称爆火的项目却不多,ChatGPT、Kimi 以及如今的 DeepSeek 是其中的代表。在某种程度上,与众多追随 OpenAI 的大模型不同,DeepSeek 成为了新一轮 AI 风暴的发起者。当前,DeepSeek R1 被公认为是最先进的大语言模型之一,具备高质量的语言处理能力,在数学、代码、自然语言推理等任务上的性能可与 OpenAI o1 模型正式版相媲美。

在 AIME 2024 数学基准测试中,DeepSeek R1 得分率为 79.8%,OpenAI o1 的得分率为 79.2%;在 MATH – 500 基准测试中,DeepSeek R1 得分率为 97.3%,OpenAI o1 的得分率为 96.4%。DeepSeek R1 强大的推理能力得益于其技术创新,其创新性的训练方法为行业提供了新思路:摒弃传统的监督微调(SFT)路径,通过强化学习(RL)优化推理路径。普遍观点认为,大模型训练需先通过大量标注数据进行 SFT,使模型具备基础能力,之后再用 RL 提升能力。OpenAI 此前的数据训练非常依赖人工干预,耗费大量人力和财力。而 DeepSeek 的研究发现,大模型可完全依靠强化学习获得强大推理能力,无需任何监督式微调。这项训练方法率先在实验性 R1 – Zer 版本上出现,随后又在 DeepSeek – V3 – base 模型上应用强化学习,完全抛开了传统的监督式微调环节。最终结果显示,在完全没有人工标注数据的情况下,DeepSeek 系列模型通过不断尝试和反馈,展现出持续的自我进化能力。

在技术创新方面,DeepSeek 采用了创新设计,如 MoE – 2048 架构。其中,每个 token 能激活 8 个专家模块,使模型参数利用率大幅提升至 72%,训练效率相较于传统的 Transformer 架构提高了 3 倍。DeepSeek 大模型的能力有目共睹,更重要的是,它正在用创新性的低成本思路颠覆市场格局。以 DeepSeek R1 为例,其性能与 GPT o1 相当,但预训练成本仅为 557.6 万美元,仅为 GPT – 4o 的十分之一。同时,DeepSeek API 服务定价远低于 OpenAI,以输出为例,输出每百万 tokens 16 元(约 2.2 美元),GPT o1 输出每百万 tokens 60 美元。

从整个行业视角来看,DeepSeek 在提供更便宜、更好用的深度推理模型的同时,践行开源理念,让深度推理模型不再神秘,给行业带来了新启发。这两年,开源和闭源路线之争是大模型行业讨论的焦点,前者以 Meta 为代表,后者以 OpenAI 为代表。此前,OpenAI 推出的 ChatGPT、Anthropic 推出的 Claude 均采用闭源,并凭借头部影响力将闭源路线推到领先位置。如今,DeepSeek 的成功给支持开源路线的人带来了信心。DeepSeek 爆火后,同样支持开源路线的 Meta 首席人工智能科学家 Yann LeCun 表示,DeepSeek 的成功代表了开源人工智能模型的胜利。“开源模型正在超越专有模型。”他在 LinkedIn 上的一篇帖子中写道。实际上,DeepSeek 开源的更深远意义在于,将构建模型的过程以论文形式公开,为行业提供了透明度,推动了整个大模型行业的进步。

伴随 DeepSeek R1 免费、开源且跻身第一梯队的超预期表现,市场对大模型行业提出了质疑:众多科技巨头投入更多算力和资金做出的产品,与 DeepSeek 水平相似,“OpenAI 们”真的值那么高的估值吗?DeepSeek 不仅打破了 AI 大模型领域“拼算力”的逻辑,还动摇了投资者对高科技晶片的信心:AI 行业也许并不需要那么多晶片,也能训练出性能好的大模型。多方声音冲击了美国科技股的资本表现。1 月 27 日美股收盘,美国科技股大跌,其中英伟达股价下跌近 17%,市值蒸发近 6000 亿美元,规模创美股史上最大。这场由 DeepSeek 卷起的风暴仍在继续,从市场竞争格局来看,DeepSeek 的崛起打破了原有平衡,对传统的 AI 巨头构成挑战,促使整个行业重新审视自身的技术路线和市场策略。

恐慌、跟随、降价,DeepSeek 引起的蝴蝶效应来了

今年春节前,DeepSeek 还鲜为人知,行业目光多集中在 OpenAI 等科技巨头身上。没想到,DeepSeek 的出现打破了平静,引发了一系列蝴蝶效应。英伟达高级研究科学家 Jim Fan 评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。”

有人惊叹,也有人恐慌。最先坐不住的是 OpenAI。自两年前推出 ChatGPT 以来,OpenAI 一直是行业风向标,其很多思路被行业认可。比如开源路线,2 月 1 日,奥特曼参与海外社交平台 Reddit“问我任何事”的问答活动,首次承认 OpenAI 的闭源策略“站在了历史错误的一边”,表示“我们需要找到一个不同的开源策略”,称“目前的 OpenAI 正处于一个‘复杂而微妙’的境地,并且面对重重挑战”。比如训练方式,此前 OpenAI 定义的大模型训练四个阶段:预训练、监督微调、奖励建模、强化学习,如今被 DeepSeek 打破,证明可以跳过和简化某些环节提升模型训练效率和性能。又比如“尺度定律”,OpenAI CEO 奥特曼一直坚称,OpenAI 的业务由芯片、数据和资金三个关键因素推动,投入的这三个元素越多,产生的人工智能就越强大。如今,该理论被 DeepSeek 击破,如果能用更便宜甚至免费的模型达到 OpenAI 的成绩,其商业模式将受到质疑,市场份额也将被蚕食。

面对如此冲击,OpenAI 迅速做出跟随式调整。2 月 1 日,发布 o3 – mini,这是 OpenAI 首个开放给免费用户的推理模型;2 月 5 日,宣布 o3 – mini 大语言模型正式向 ChatGPT 用户和开发者开放使用;2 月 6 日,宣布向所有用户开放 ChatGPT 搜索功能,且无需注册。据 Wired 报道,OpenAI 提前发布 o3 – mini 是为了应对 DeepSeek 上周一发布的专注推理的大语言模型 R1,R1 的发布引发了人工智能股票的大幅抛售,也让人们对 OpenAI 模型的成本效益产生怀疑。据 OpenAI 介绍,o3 – mini 是其最具成本效益的推理模型,在科学、数学、编程等领域能力较强,兼具 o1 – mini 的低成本和低延迟特点,可与联网搜索功能搭配使用,但不支持视觉功能。与此同时,OpenAI 也在降低 API 调用价格。据 OpenAI 介绍,自 GPT – 4 推出以来,每个 token 的定价下降了 95%。o3 – mini 输入、输出每百万 tokens 的定价分别为 0.55 美元、4.4 美元,仍高于 DeepSeek R1。

OpenAI 的恐慌与跟随只是这场蝴蝶效应的一个方面,DeepSeek 的影响力巨大。1 月 30 日,Anthropic CEO 达里奥·阿莫迪发万字长文呼吁“锁死芯片出口”,以确保 AGI 只发生在美国。当日,外媒援引消息人士的话称,美国正在考虑对售华芯片实施额外限制的可能性,其中包括 Dario 建议限制的芯片 H20。当然,技术封锁并非保持优势的长期有效手段,开放与合作才更有利于 AI 行业的未来发展。技术封锁或许只是这场 AI 战役的开端,以 DeepSeek 为代表的中国 AI 企业面临的挑战还有很多。

眼下,AI 世界正在发生变化。DeepSeek 带来的变革正在深刻影响整个 AI 产业链。低成本的开发模式或许将衍生出一系列低门槛的行业创新规则、创新方式,吸引更多创业玩家入场。这场由 DeepSeek 掀起的新“ChatGPT”时刻,仍在不断演绎新的故事。

正文完
 0