DeepSeek引发AI行业震动，重塑全球大模型格局

312次阅读

共计 5069 个字符，预计需要花费 13 分钟才能阅读完成。

今年春节，一款中国大模型 DeepSeek R1 在全球 AI 圈掀起了巨大波澜，直接对标 OpenAI 去年 9 月发布的 o1 系列模型。其火爆程度令人惊叹，1 月 27 日，DeepSeek 在中国区和美国区苹果 App Store 免费榜上同时冲到下载量第一，单周下载量高达约 240 万次。

在 DeepSeek R1 发布之前，OpenAI o1 让中国大模型厂商们难以企及。然而，DeepSeek R1 的出现，让 OpenAI CEO 奥特曼感叹“这是个令人印象深刻的模型”，英伟达更是称赞其为最先进的大语言模型。更重要的是，与 OpenAI 模型的闭源及 o1 模型付费使用限制不同，DeepSeek R1 不仅开源，还免费供全球用户无限调用。

这场由 DeepSeek 掀起的 AI 风暴，引发了全球范围内 AI 从业者的跟随，同时也引起了一些恐慌和攻击。“大模型开源之王”的 Meta 内部员工爆出“Meta 生成式人工智能部门陷入恐慌”；OpenAI 压力明显，两周内接连发布三个大模型：两个 AI 智能体 Operator、Deep Research、推理模型 o3 – mini。另一方面，1 月 28 日凌晨，DeepSeek 官网连续发布两条公告称，其线上服务受到大规模恶意攻击。DeepSeek 俨然站在了风暴中心。关键在于，DeepSeek 打破了大模型行业拼算力的共识，用不到 OpenAI 十分之一的资源，做出了性能对标 OpenAI o1 的 DeepSeek R1。资本市场也因此受到影响，截至 1 月 27 日美股收盘，美股科技股大跌，费城半导体指数下跌 9.2%、英伟达股价下跌近 17%。

2023 年春节，ChatGPT 点燃了 AI 行业的火种，此后每年春节都有爆火的大模型出现。2024 年是 Sora，2025 年是 DeepSeek。今年，站在 C 位的是中国的深度求索。DeepSeek 连续多日登顶苹果 App Store 全球下载榜首，上线 20 天日活突破 2000 万，这股来自东方的力量冲击了整个 AI 行业，并迅速席卷硅谷。此前，自文本大模型 ChatGPT 问世后，OpenAI 一直是行业范式企业，其他大模型企业多追随其后。例如 o1 大模型，自去年 9 月推出以来，国内大模型企业一直未能推出能与之抗衡的产品。此次，DeepSeek 以更小的算力、更低的成本带来了 DeepSeek R1，让市场眼前一亮。

实际上，与 OpenAI 和其他中国效仿者用数亿美元训练大模型不同，DeepSeek 始终秉持“花小钱，办大事”的思路。早在去年 12 月底，DeepSeek 发布对标 GPT – 4o 的 V3 模型，仅使用 2048 块英伟达 H800 芯片，耗费约 560 万美元。相比之下，GPT – 4o 使用上万块英伟达 H100 芯片（性能优于 H800），训练成本约 1 亿美元。去年 5 月，DeepSeek 发布 DeepSeek – V2，价格仅为 GPT – 4 Turbo 的近百分之一。也是从那时起，字节、阿里、百度等大模型相继宣布降价，DeepSeek 更是一年内 3 次降价，每次降幅超过 85%。在训练成本和价格上，DeepSeek 不走大而全的路线，而是专注细分和创新。比如，它提出了新的 MLA（多头潜在注意力）架构，并与 DeepSeek MoESparse（混合专家结构）结合，将显存占用降至其他大模型最常用的 MHA（多头注意力）架构的 5% – 13%。此外，DeepSeek 通过“数据蒸馏”技术训练模型，用一个高精度的通用大模型当老师，仅用 1 / 5 的数据量就能达到同等效果，降低了成本。

对标 OpenAI 只是表面现象，本质上，DeepSeek 对整个大模型行业造成了冲击，也因此面临前所未有的压力。在登顶中国和美区苹果应用商店 24 小时后，DeepSeek 再次成为焦点：OpenAI 指控 DeepSeek 未经许可“蒸馏”其专有技术，美国多位官员发声支持，包括特朗普的人工智能顾问大卫·萨克斯、特朗普提名的美国商务部长霍华德·卢特尼克。此次争议源于 OpenAI 的最大投资方微软。1 月 29 日，外媒报道称微软安全研究人员发现，DeepSeek 相关人士可能使用 OpenAI 应用程序编程接口 (API)，未经授权窃取了大量数据。此外，DeepSeek 的线上服务不断遭受攻击，从最初的 SSDP、NTP 反射放大攻击，到 1 月 28 日增加的大量 HTTP 代理攻击，网络攻击不断升级。

然而，在被质疑和攻击的同时，不少企业迅速适应并拥抱 DeepSeek 带来的新变化。在云领域，华为云、腾讯云、阿里云、百度智能云、火山引擎、京东云、360 数字安全等多平台都宣布上线 DeepSeek 大模型，海外的亚马逊云、微软智能云等云巨头也已官宣支持。在芯片领域，继英伟达、AMD、英特尔等海外芯片巨头加入支持后，国内芯片公司天数智芯、摩尔线程也接连宣布支持 DeepSeek 模型。无论是被攻击还是被支持，DeepSeek 被“包围”在意料之中，这也是行业明星项目的必经之路，只有经得住质疑与对比，才能在“百模大战”中站稳脚跟。

自 2023 年以来，大模型行业新闻不断，但堪称爆火的项目却不多，ChatGPT、Kimi 以及如今的 DeepSeek 是其中的代表。在某种程度上，与众多追随 OpenAI 的大模型不同，DeepSeek 成为了新一轮 AI 风暴的发起者。当前，DeepSeek R1 被公认为是最先进的大语言模型之一，具备高质量的语言处理能力，在数学、代码、自然语言推理等任务上的性能可与 OpenAI o1 模型正式版相媲美。

在 AIME 2024 数学基准测试中，DeepSeek R1 得分率为 79.8%，OpenAI o1 的得分率为 79.2%；在 MATH – 500 基准测试中，DeepSeek R1 得分率为 97.3%，OpenAI o1 的得分率为 96.4%。DeepSeek R1 强大的推理能力得益于其技术创新，其创新性的训练方法为行业提供了新思路：摒弃传统的监督微调（SFT）路径，通过强化学习（RL）优化推理路径。普遍观点认为，大模型训练需先通过大量标注数据进行 SFT，使模型具备基础能力，之后再用 RL 提升能力。OpenAI 此前的数据训练非常依赖人工干预，耗费大量人力和财力。而 DeepSeek 的研究发现，大模型可完全依靠强化学习获得强大推理能力，无需任何监督式微调。这项训练方法率先在实验性 R1 – Zer 版本上出现，随后又在 DeepSeek – V3 – base 模型上应用强化学习，完全抛开了传统的监督式微调环节。最终结果显示，在完全没有人工标注数据的情况下，DeepSeek 系列模型通过不断尝试和反馈，展现出持续的自我进化能力。

在技术创新方面，DeepSeek 采用了创新设计，如 MoE – 2048 架构。其中，每个 token 能激活 8 个专家模块，使模型参数利用率大幅提升至 72%，训练效率相较于传统的 Transformer 架构提高了 3 倍。DeepSeek 大模型的能力有目共睹，更重要的是，它正在用创新性的低成本思路颠覆市场格局。以 DeepSeek R1 为例，其性能与 GPT o1 相当，但预训练成本仅为 557.6 万美元，仅为 GPT – 4o 的十分之一。同时，DeepSeek API 服务定价远低于 OpenAI，以输出为例，输出每百万 tokens 16 元（约 2.2 美元），GPT o1 输出每百万 tokens 60 美元。

从整个行业视角来看，DeepSeek 在提供更便宜、更好用的深度推理模型的同时，践行开源理念，让深度推理模型不再神秘，给行业带来了新启发。这两年，开源和闭源路线之争是大模型行业讨论的焦点，前者以 Meta 为代表，后者以 OpenAI 为代表。此前，OpenAI 推出的 ChatGPT、Anthropic 推出的 Claude 均采用闭源，并凭借头部影响力将闭源路线推到领先位置。如今，DeepSeek 的成功给支持开源路线的人带来了信心。DeepSeek 爆火后，同样支持开源路线的 Meta 首席人工智能科学家 Yann LeCun 表示，DeepSeek 的成功代表了开源人工智能模型的胜利。“开源模型正在超越专有模型。”他在 LinkedIn 上的一篇帖子中写道。实际上，DeepSeek 开源的更深远意义在于，将构建模型的过程以论文形式公开，为行业提供了透明度，推动了整个大模型行业的进步。

伴随 DeepSeek R1 免费、开源且跻身第一梯队的超预期表现，市场对大模型行业提出了质疑：众多科技巨头投入更多算力和资金做出的产品，与 DeepSeek 水平相似，“OpenAI 们”真的值那么高的估值吗？DeepSeek 不仅打破了 AI 大模型领域“拼算力”的逻辑，还动摇了投资者对高科技晶片的信心：AI 行业也许并不需要那么多晶片，也能训练出性能好的大模型。多方声音冲击了美国科技股的资本表现。1 月 27 日美股收盘，美国科技股大跌，其中英伟达股价下跌近 17%，市值蒸发近 6000 亿美元，规模创美股史上最大。这场由 DeepSeek 卷起的风暴仍在继续，从市场竞争格局来看，DeepSeek 的崛起打破了原有平衡，对传统的 AI 巨头构成挑战，促使整个行业重新审视自身的技术路线和市场策略。

今年春节前，DeepSeek 还鲜为人知，行业目光多集中在 OpenAI 等科技巨头身上。没想到，DeepSeek 的出现打破了平静，引发了一系列蝴蝶效应。英伟达高级研究科学家 Jim Fan 评价道：“我们正生活在一个特殊的时代：一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究，为所有人赋能。”

有人惊叹，也有人恐慌。最先坐不住的是 OpenAI。自两年前推出 ChatGPT 以来，OpenAI 一直是行业风向标，其很多思路被行业认可。比如开源路线，2 月 1 日，奥特曼参与海外社交平台 Reddit“问我任何事”的问答活动，首次承认 OpenAI 的闭源策略“站在了历史错误的一边”，表示“我们需要找到一个不同的开源策略”，称“目前的 OpenAI 正处于一个‘复杂而微妙’的境地，并且面对重重挑战”。比如训练方式，此前 OpenAI 定义的大模型训练四个阶段：预训练、监督微调、奖励建模、强化学习，如今被 DeepSeek 打破，证明可以跳过和简化某些环节提升模型训练效率和性能。又比如“尺度定律”，OpenAI CEO 奥特曼一直坚称，OpenAI 的业务由芯片、数据和资金三个关键因素推动，投入的这三个元素越多，产生的人工智能就越强大。如今，该理论被 DeepSeek 击破，如果能用更便宜甚至免费的模型达到 OpenAI 的成绩，其商业模式将受到质疑，市场份额也将被蚕食。

面对如此冲击，OpenAI 迅速做出跟随式调整。2 月 1 日，发布 o3 – mini，这是 OpenAI 首个开放给免费用户的推理模型；2 月 5 日，宣布 o3 – mini 大语言模型正式向 ChatGPT 用户和开发者开放使用；2 月 6 日，宣布向所有用户开放 ChatGPT 搜索功能，且无需注册。据 Wired 报道，OpenAI 提前发布 o3 – mini 是为了应对 DeepSeek 上周一发布的专注推理的大语言模型 R1，R1 的发布引发了人工智能股票的大幅抛售，也让人们对 OpenAI 模型的成本效益产生怀疑。据 OpenAI 介绍，o3 – mini 是其最具成本效益的推理模型，在科学、数学、编程等领域能力较强，兼具 o1 – mini 的低成本和低延迟特点，可与联网搜索功能搭配使用，但不支持视觉功能。与此同时，OpenAI 也在降低 API 调用价格。据 OpenAI 介绍，自 GPT – 4 推出以来，每个 token 的定价下降了 95%。o3 – mini 输入、输出每百万 tokens 的定价分别为 0.55 美元、4.4 美元，仍高于 DeepSeek R1。

OpenAI 的恐慌与跟随只是这场蝴蝶效应的一个方面，DeepSeek 的影响力巨大。1 月 30 日，Anthropic CEO 达里奥·阿莫迪发万字长文呼吁“锁死芯片出口”，以确保 AGI 只发生在美国。当日，外媒援引消息人士的话称，美国正在考虑对售华芯片实施额外限制的可能性，其中包括 Dario 建议限制的芯片 H20。当然，技术封锁并非保持优势的长期有效手段，开放与合作才更有利于 AI 行业的未来发展。技术封锁或许只是这场 AI 战役的开端，以 DeepSeek 为代表的中国 AI 企业面临的挑战还有很多。

眼下，AI 世界正在发生变化。DeepSeek 带来的变革正在深刻影响整个 AI 产业链。低成本的开发模式或许将衍生出一系列低门槛的行业创新规则、创新方式，吸引更多创业玩家入场。这场由 DeepSeek 掀起的新“ChatGPT”时刻，仍在不断演绎新的故事。

正文完