阿里Qwen3发布,能成为下一个DeepSeek吗?

7次阅读

共计 1068 个字符,预计需要花费 3 分钟才能阅读完成。

4 月 29 日凌晨,阿里巴巴旗下通义千问团队发布并开源了新一代模型 Qwen3。Qwen3 系列有多种模型类型,包括不同参数规模的混合专家(MoE)模型和密集模型。

作为国内首个混合推理模型家族,Qwen3 一推出就在开源圈引发热议:它能否成为下一个 DeepSeek?

发布后不久,华为计算官方称昇腾 MindSpeed 和 MindIE 支持 Qwen 系列模型,此次 Qwen3 开源后已能开箱即用。海光信息也表示其 DCU 完成了对全部 8 款模型的适配与调优。

共绩算力 COO 王鹏说,发布第二天就完成了 Qwen3-30B-A3B 的本地化部署,用单卡 4090,目前对 C 端用户开放。Qwen3 部署成本低,小模型成本更低。还有算力集群公司工作人员称发布第二天就接到客户订单。

与之前模型比,Qwen3 有明显提升。架构上采用混合专家(MoE)架构,以旗舰模型 Qwen3-235B-A22B 为例,总参数量大但激活量小,降低了运行时对算力的即时需求。

这一设计让模型能灵活调配计算资源,兼顾效率与准确性,开拓了模型应用空间。预训练数据量升至 36T,是 Qwen2.5 的三倍,还运用多轮强化学习优化了智能处理逻辑,提升了模型多方面表现。

与 DeepSeek-R1 相比,Qwen3 参数量仅为其 1 /3,成本大幅下降,部署只需 4 张 H20,显存占用仅为相近模型的三分之一。

不过,不少 AI 发烧友实测后指出,Qwen3 长文本能力表现不突出,有一定幻觉率,但在生成复杂代码、数学推理等方面,思考模式表现好于非思考模式。

当下 AI 赛道竞争激烈,科技巨头对 AI 战略布局都很重视。阿里此前表态未来三年将投入超 3800 亿元用于云和 AI 硬件基础设施建设。

阿里集团各业务板块将 AI 作为重要 KPI,强化通义千问与夸克的“双子星”格局,通义千问支撑云上智能,夸克打造端侧入口,推动 AI To C 战略落地。

“夸克”和“通义”成 Qwen3 主要体验入口,所有用户可免费使用。通义千问曾为阿里 B 端企业服务及开发者生态提供支撑,但“通义”App 在 C 端没打出声量。

夸克突破重围,2025 年 3 月 MAU 达 1.48 亿,登上国内 AI 应用榜首。2024 年底至 2025 年初,阿里推进 AI To C 战略,将 AI 应用“通义”并入智能信息事业群,整合相关团队,并聘请顶尖 AI 科学家负责 AI To C 业务研发。

阿里 AI 战略仍有挑战。通义千问要维持技术优势并降低使用门槛,满足中小企业定制需求。夸克要优化技术架构与服务器性能,确保用户体验稳定。

AI 市场竞争激烈,腾讯混元大模型依托微信优势,字节跳动旗下豆包借助抖音推流优势,都在争夺 C 端用户,阿里 AI 战略前路充满变数。

正文完
 0