Manus引领智能体复现热潮,开源与商业应用齐头并进

2次阅读

共计 1644 个字符,预计需要花费 5 分钟才能阅读完成。

近期,一款名为 Manus 的智能体产品引发了广泛关注,其背后的开发公司“蝴蝶效应”成为行业焦点。这一创新成果不仅激发了开源社区的热情,也让商业闭源产品的竞争更加激烈。

Manus 发布当日便吸引了众多开发者竞相复现,其中两个进度最快的项目均在同一天发布了各自的复现代码。除了广为人知的 OpenManus 外,另一款名为 OWL 的开源项目脱颖而出,成功将 DeepSeek 模型集成至多智能体协作框架中。OWL 项目隶属于国内活跃的开源社区 CAMEL-AI 团队,其在智能体测试基准 GAIA 的验证集上表现亮眼,平均分位列第三,同时在开源项目中排名第一。具体来看,OWL 的 Level 1 得分达到了 81.13,已逼近 Manus 公布的 86.5 分,而在 Level 2 和 Level 3 方面虽尚存差距,但团队负责人李国豪充满信心,表示未来有望进一步提升。

全球范围内的热烈反响

随着 Manus 的热度不断攀升,其相关项目迅速占据 GitHub 热门榜单前列。老牌 Agent 项目 MetaGPT 与 AutoGPT 再次受到瞩目,而 Camel-AI、OpenManus 所采用的代码库 browser-use 同样吸引了大量关注。此外,金融、编程等领域的垂直智能体也受到了市场的极大关注。

值得注意的是,Claude 团队推出的模型上下文协议 MCP 因与 Manus 的关联再度成为热议话题。尽管该协议已存在一段时间,但如今却成为研究者探索如何构建类似 Manus 的重要参考路径。

国际化的成功案例

Manus 不仅在国内掀起波澜,在海外市场同样收获了热烈反响。尽管官方社交媒体账号曾短暂遭遇禁封,但现已恢复正常,并承诺将推出更多演示与更新。为了扩大影响力,Manus 联合创始人季逸超主动联系了抱抱脸(Hugging Face)的 CEO,并公开发放 100 个邀请码,供全球用户免费领取。在与抱抱脸 CEO 的对话中,季逸超提到,Agent 的能力更多体现在对齐问题而非基础能力上,通过后期训练即可显著改善性能。

海外用户的反馈与国内用户相似,不少人在获得访问权限后对 Manus 的表现感到震撼,甚至自发成为宣传大使。相比 OpenAI 提供的高昂服务费用(每月高达两万美元),Manus 的价格显然更具吸引力,这使得海外用户的接受度更高。

多样化的应用场景

用户普遍利用 Manus 进行个性化任务处理,例如整理个人资料并生成主页。一位名叫 Rowan Cheung 的用户称赞 Manus 收集的信息准确无误且时效性强。类似的应用还包括帮助日本网友搭建自我介绍网站,以及完成复杂的编程任务,如开发基于 JavaScript 的游戏。此外,Manus 在信息检索领域也表现出色,有用户仅用不到十分钟就找到了理想的租房信息。

尽管如此,部分使用者反映 Manus 的运行速度有待优化,同时邀请码供不应求的问题依然存在。

行业标杆 GAIA 基准测试

Manus 的成功不仅推动了开源社区的发展,还促使 GAIA 基准测试成为衡量智能体产品竞争力的新标准。GAIA 由 Meta AI、HuggingFace 及 AutoGPT 团队共同推出,旨在应对现有大语言模型基准测试被快速突破的挑战,提供更科学严谨的评估机制。

GAIA 测试包含 450 多个具有明确答案的复杂问题,分为三个难度等级,全面考察智能体系统的工具运用能力和自主性。Level 1 侧重于简单信息查询;Level 2 要求结合多种工具完成任务;Level 3 则挑战接近通用 AI 的标准,需结合广泛的背景知识与推理能力。当前,测试集排行榜中的 h2oGPTe Agent 和 Trase Agent 两个商业闭源系统在 Level 2 的表现与 Manus 相当接近,而 Manus 在 Level 3 上的领先优势较为明显。

回顾历史,从 ImageNet 开启深度学习浪潮起,每个时代都有代表性的榜单引领技术潮流。BERT 时代的 CLUE、SpuerCLUE,ChatGPT 系列的 MMLU、ChatBot Arena,乃至最新的数学推理、理科博士题、编程测试等,都反映了特定领域的技术趋势。而如今,智能体刷 GAIA 似乎正成为行业的最新共识。

正文完
 0