共计 1839 个字符,预计需要花费 5 分钟才能阅读完成。
在科技界,近日 DeepSeek 成为焦点,OpenAI 和其竞争对手 Anthropic 对其发起了激烈攻击。这场争斗的导火索是 OpenAI 声称发现 DeepSeek 利用他们的模型进行训练,涉嫌侵犯知识产权,并且他们还发现了 DeepSeek 有“蒸馏”OpenAI 模型的迹象。具体来说,这意味着 DeepSeek 可能通过使用更大模型的输出,以较低的成本在某些特定任务上获得类似的效果。
除此之外,微软也对 DeepSeek 展开了调查,试图确认 DeepSeek 是否使用了 OpenAI 的 API。一时间,这一消息引发了众多嘲讽,尤其是来自纽约大学教授 Markus 的发言,他直指 OpenAI 的双标现象,讽刺他们在利用艺术家与作家的作品训练模型的同时,却指责 DeepSeek 的行为。知名媒体 404 Media 的创始人也调侃道,OpenAI 向来是“只许州官放火”。
在此背景下,Anthropic 的创始人 Dario Amodei 也加入了讨论,他在个人博客中表示,虽然 DeepSeek 被指责为威胁,但他认为这有些夸大,实际上还是“7-10 个月前”的水平。他还建议为了保持领先,应建立更多的限制。
而微软的举动则显得颇为微妙。在对 DeepSeek 的侵权指控几小时后,他们竟在自己的 AI 平台上接入了 DeepSeek 的模型,网友们纷纷调侃这就是典型的“否认是接受的第一步”。目前,微软与 OpenAI 的质疑仍处于调查阶段。消息指出,DeepSeek 可能早在去年秋天就使用了 OpenAI 的 API,导致了一定的数据泄露。
OpenAI 在采访中阐述了自己的立场,指出任何人都能注册使用他们的 API,但是不得使用输出的数据去训练可能威胁 OpenAI 竞争性的模型。虽然 OpenAI 表示已经发现 DeepSeek 的模型蒸馏证据,但至今他们不愿透露更多的细节。
那什么是“模型蒸馏”呢?这是一种模型压缩技术,通常通过将复杂的、大型的模型(也被称为教师模型)的知识转移到一个更小、更高效的模型(称为学生模型)中。在知名计算机科学家 Hinton 的论文中,他便强调了知识蒸馏对模型迁移效果的显著性。这种方法帮助一些新兴企业在相对较低的成本下实现了技术优势,比如 Together AI 成功地将 Llama 3 转化为更为高效的 Mamba,推理速度提升了 1.6 倍。
在行业内部,有些开源模型的服务条款是允许蒸馏的,DeepSeek 在其文件中也曾表示利用了 Llama 的技术。值得注意的是,DeepSeek R1 并非仅仅是简单的模型蒸馏。OpenAI 的首席科学家 Mark Chen 指出,DeepSeek 独立开发的一些核心理念,与 OpenAI 的技术不乏相似之处。同时他也认可 DeepSeek 在成本控制方面的努力,表明 OpenAI 也在积极探索模型的压缩和优化技术。
然而,归根结底,模型蒸馏在学术和工业界都得到了认可,只是 DeepSeek 的做法可能与 OpenAI 的服务条款发生了冲突。关于 DeepSeek 的正当性,确实引发了激烈讨论。实际上,OpenAI 自己在合规性上也存在不少争议。例如,OpenAI 在训练模型时曾利用了互联网的海量数据,其中不仅包括公共的知识内容,还有许多有版权的作品。
随着 2023 年底《纽约时报》以侵犯知识产权为由起诉 OpenAI,目前案情尚未有定论。而 OpenAI 多次向法院解释自己的行为,包括表示只要是公开获得的数据用于训练 AI 模型,就是合理合规的。OpenAI 主张,他们的训练行为对于创作者是公平的,对于创新是必要的,毕竟大语言模型的训练并不是单单依靠某一份论文就能完成的。换句话说,OpenAI 的技术成就,部分来自于对早期研究成果的依赖,而当他们因 DeepSeek 的行为而发声时,舆论就格外敏感。
对于 DeepSeek R1 的推出,分析师郭明錤指出,这标志着几个趋势的加速。尽管没有 DeepSeek,这些趋势依然存在,但 R1 的出现极大地推动了它们的发展。其中一项是,在 Scaling Law 逐渐放缓的背景下,AI 算力依然能够通过优化训练方式不断提升。同时,郭明錤提到,随着 API 和 Token 的价格下降,AI 应用的多元化将加速发展。这意味着,DeepSeek 的定价策略将有可能降低生成式 AI 整体的使用成本,从而刺激 AI 算力需求。
不过,未来这种使用量的提升是否能够抵消价格降低带来的影响,尚待观察。此外,郭明錤强调,只有在大规模应用情况下,开发者才能真正感受到 Scaling Law 边际效益的放缓,而一旦边际效益再度加速,好处还将属于技术领先的公司,比如英伟达。