共计 1675 个字符,预计需要花费 5 分钟才能阅读完成。
4 月 17 日,火山引擎在杭州正式宣布推出全新升级的多项 AI 技术,包括豆包 1.5 版深度思考模型,并同步升级了文生图模型 3.0 和视觉理解模型。同时,他们还发布了 OS Agent 解决方案和 AI 云原生推理套件,旨在帮助企业更快速、更高效地构建和部署智能 Agent 应用。
根据火山引擎的数据显示,截至 2025 年 3 月底,豆包大模型的日均 tokens 调用量已达 12.7 万亿,比去年 5 月发布时增长了上百倍。这显示出模型在实际应用中的迅速扩展。火山引擎总裁谭待强调:“Agent 智能体的发展将极大推动大模型的普及。深度思考模型是构建智能 Agent 的基础,模型必须支持多模态,包括视觉和听觉,才能像人一样进行思考、规划和反思,从而应对复杂任务。”
竞争与合作:模型质量才是王道
面对开源模型如 DeepSeek 的激烈竞争,谭待表达了自己的看法:“模型的质量才是关键,开源和闭源并不是唯一决定因素。AI 技术如一场马拉松,我们目前不过跑了 500 米。整个行业都在你追我赶,这是非常正常的竞争,推动技术不断向前。”
他进一步指出,火山引擎作为云服务提供商,核心目标是打造最好的 AI 云平台:一是夯实基础设施,确保云原生技术成熟;二是提供优质的模型及多样化应用。在基础建设完善后,无论是豆包还是开源模型,企业都可以方便地接入和使用。据了解,火山引擎对于 DeepSeek 云服务的适配效果是行业内最优的之一,许多第三方客户选择在火山引擎平台使用 DeepSeek 服务,他们对模型的依赖度是最高的。他表示:“我们希望拥有尽可能多优质模型,当然对豆包充满信心。”
豆包模型的强大表现
谭待介绍,豆包 1.5 版深度思考模型在专业领域表现出色。例如,在数学推理(如 AIME 2024 测试)中得分媲美 OpenAI 的版本,编程竞赛和科学推理等任务也非常接近领先水平。在通用任务方面,无论是创意写作还是人文知识问答,模型都表现出强大的泛化能力,能满足多样化的应用需求。
这款模型采用了高效的 MoE(稀疏专家)架构,总参数 200B,激活参数仅 20B,利用较少的参数实现了接近顶尖模型的性能。借助先进的算法和高性能推理系统,API 服务的响应速度低至 20 毫秒,保证在高并发环境下依然流畅。
多模态能力开启新场景
更令人兴奋的是,豆包深度思考模型还具备视觉推理能力。它可以像人一样理解图像内容,进行联想和思考,从而极大扩大了其应用边界。谭待举例:“模型可以理解复杂的企业流程图,快速定位关键信息,严格遵循流程应答客户问题,还能分析航拍图,结合地貌特征判断开发的可行性。”多模态特性让它在企业智能化升级中,扮演着越来越重要的角色。
与此同时,豆包的文生图模型 Seedream3.0 也正式对企业开放。这一版本支持 2K 高清分辨率,图像结构准确、美观,适用范围广泛,已在多个应用场景中表现优异,并登顶 AI 竞技场的文生图榜单,展现了强大的技术实力。
促进智能 Agent 落地
2025 年被业内视作“Agent 智能体元年”。谭待强调,在多模态深度思考模型的基础上,建设可靠的架构和工具尤为重要,以实现数字世界和物理世界的操作自动化。为此,火山引擎推出了 OS Agent 解决方案,展示了通过 Agent 完成如浏览器搜索、商品比价、视频剪辑等日常任务的能力。
这一方案包含豆包 UI-TARS 模型、veFaaS 函数服务、云服务器、云手机等多种产品,能够实现对代码、网页、电脑、手机等多种设备的智能控制。豆包 UI-TARS 模型将视觉理解、逻辑推理、界面操作融合,打破了传统依赖预设规则的限制,为智能交互提供了更自然、更贴近人类的体验。
为了应对大量模型推理带来的成本压力,火山引擎还开发了专门的云原生推理套件——ServingKit,不仅加快部署速度,还大幅降低 GPU 消耗,较传统方案降低了 80% 的能耗。这使得大规模应用成为可能,并极大提升了性价比。
根据 IDC 的《中国公有云大模型服务市场格局分析,1Q25》报告,火山引擎以 46.4% 的市场份额领跑行业,凭借丰富的工具链、灵活的解决方案和卓越的性价比,成为企业推广大模型的首选平台,未来的 AI 生态格局也将持续向火山引擎倾斜。