共计 1079 个字符,预计需要花费 3 分钟才能阅读完成。
春节期间,国内外 AI 圈被 DeepSeek 刷屏。英伟达股市震荡,其市值蒸发近 6000 亿美元。DeepSeek 发布的 DeepSeek-V3 和 DeepSeek-R1 模型,以低成本获得比肩 OpenAI 同类模型的性能,引发市场对 AI 硬件需求的担忧,投资者担心英伟达高端芯片需求减少。
关于 DeepSeek 技术创新的讨论众多。很多人认为,DeepSeek 在硬件受限下走出不同于 OpenAI 狂堆算力的道路,用技术创新减少模型对算力需求并提升性能。这些成就获包括 Sam Altman 在内的 AI 领军人物肯定。
OpenAI 首席研究官 Mark Chen 发帖表示,DeepSeek 确实独立发现了一些 OpenAI o1 也在用的核心理念,但这并不意味着 OpenAI 在算力上的高投入不合理。他认为外界反应过度夸大,特别是成本方面的说法。拥有预训练和推理两个范式,意味着可在两个维度优化能力,也有两个可扩展维度,OpenAI 打算在这两个维度积极投入算力。随着蒸馏研究成熟,降低成本和提升能力愈发解耦,能以低成本提供服务不意味着就能产生更好能力。OpenAI 将继续提升以低成本提供模型服务的能力,对研究路线图保持乐观并专注执行,很高兴能在本季度和今年带来更好模型。
Mark Chen 的发言和 Sam Altman 一样,在重塑外界对 OpenAI 的信心,并预告今年会带来更好模型。此外,OpenAI 研究科学家 Noam Brown 努力弱化外界对 OpenAI 和 DeepSeek 的对比,但未被大家接受。
Mark Chen 提到的“外界的反应有些过度夸大,特别是在成本方面的说法”被很多人讨论,尤其是“DeepSeek-v3 训练成本仅为 558 万美元”这一说法。DeepSeek-v3 技术报告原文指出,上述成本仅包括正式训练,不包括前期研究、消融实验成本。
图灵奖得主、Meta AI 首席科学家 Yann LeCun 也认为市场对 DeepSeek 的成本反应不合理。他从推理角度指出,巨额投资大多花在让 AI 服务稳定服务数十亿用户上,且随着 AI 能力增强,维持服务运行成本更高,关键看用户是否愿为增强功能付费。不少网友赞同他的看法,认为训练、推理成本更低的 AI 能更快普及,创造更大市场。
从这个角度看,DeepSeek 在降低推理成本方面的努力似乎比降低训练成本的贡献更值得关注。针对可能即将到来的推理需求激增,OpenAI、Meta 等都在做相应准备,比如 OpenAI 的“星际之门”项目(计划投资 5000 亿美元但资金是否到位存疑)、Meta 新一年 600 亿美元的 AI 投资。
2025 年,AI 市场竞争依然激烈,DeepSeek 在新一年能走多远有待观察。