通义千问与文心一言大比拼:谁是苹果AI最佳拍档?

5次阅读

共计 3897 个字符,预计需要花费 10 分钟才能阅读完成。

4499 元起的 iPhone 16e 虽已亮相,但购买与否需谨慎斟酌。仅从硬件配置考量,同价位的安卓手机在配置上可能更具优势。然而,对于苹果用户而言,iPhone 16e 作为价格亲民的 AI iPhone,无疑是预算有限却渴望体验苹果 AI 功能的消费者的理想之选。

早在去年 10 月,苹果就透露 Apple Intelligence 将于 2025 年 4 月初推出简体中文版。如今,iPhone 16e 商品页面显示,该功能的推出时间将视监管部门审批情况而定,这意味着其开发工作已经完成并提交审核,极有可能如之前宣传的那般,在 4 月初与 iOS 18.4 同步上线。

为确保 Apple Intelligence 符合国内相关要求,苹果需在中国寻觅 AI 企业作为合作伙伴,以便为中国用户提供 AI 功能。最初,豆包、百度等 AI 公司传出与苹果合作的消息,经过筛选,有消息称苹果选择了阿里巴巴作为合作伙伴,放弃了百度。但据科技媒体 The Information 报道,苹果并未放弃百度,而是同时与阿里巴巴和百度展开合作,百度将参与部分 AI 套件的研发工作,其中包括中文版 Siri 语音助手升级、图片和文本智能搜索等。

百度、阿里巴巴、腾讯曾并称中国互联网三巨头,进入 AI 时代后,它们分别推出了文心一言、通义千问、腾讯混元三大 AI 大模型。苹果同时与百度和阿里巴巴合作,不禁让人联想起苹果让供应商内卷的情形,只有实力雄厚的供应商才有机会加入果链。那么,百度和阿里谁才是苹果 AI 领域的“黄金搭档”呢?

在之前的 AI 大模型测试中,曾多次对通义千问、文心一言、豆包、Kimi、DeepSeek 等国产 AI 大模型进行对比。当时,由于文心 4.0 及更强的大模型提供收费服务,为保证公平,选择了免费的文心 3.5 大模型。如今,百度宣布文心一言将于 4 月 1 日起提供免费服务,并于 6 月 30 日起开源模型。在免费服务前,每天还会发放 VIP 体验券,几乎等同于免费服务。因此,决定用文心一言最强的文心 4.0 Turbo 与通义千问屡获殊荣的 Qwen 2.5 模型进行对比。

考虑到阿里巴巴、百度与苹果合作是为了向 iPhone 用户提供 AI 服务,此次测试项目的问题均设定为日常使用手机时可能遇到的问题或需要处理的事项。

常识问答:PC 端通义千问才是完全体?

在针对 AI 的测试项目中,常识问答通常较为简单,本以为这场测试难以体现出 AI 大模型的差距,结果却令人颇为惊讶。

早有假期旅游计划的向 AI 提出的第一个问题是“今年高速哪些时间免费”。通义千问并未完整告知今年高速所有免费时间段,仅给出了春节期间高速免费的开始和结束时间。不死心的又问了两次,得到的回答完全相同。文心一言则详细统计了春节、清明、劳动节、国庆节四个时间段高速免费的开始和结束时间,并备注了免费通用型车辆的标准。

需要注意的是,当切换至 PC 端,再次向通义千问询问该问题时,居然得到了正确答案。然而,第三次使用手机端通义 App 询问该问题时,通义千问依然给出了与前两次相同的错误答案。

从结果来看,通义千问在常识解答方面的能力并不逊色于文心一言,只是其网页版和手机 App 似乎存在差异,手机端三次回答均错误,PC 端一次就回答正确。鉴于此,接下来的几轮测试,全部改用网页版通义千问和文心一言。

工作提效:文心、通义各有所长

许多较长的论文、文档总是没有时间从头至尾阅读,好在 AI 大模型基本都加入了内容总结功能。本轮测试便选择了此前清华大学新闻与传播学院、新媒体研究中心、元宇宙文化实验室联合推出的《DeepSeek:从入门到精通》文件,让通义千问和百度为分析、总结 DeepSeek 的使用技巧。

通义千问总结的内容分为六大板块,前四个板块均为分析 DeepSeek 的领先性和应用场景,第五板块为清华大学的贡献,最后一个板块为未来展望,每个板块的内容都极为简略,只能作为 DeepSeek 入门前了解基础知识的阅读材料,与“精通”二字相去甚远。

文心一言总结出的内容分为 12 个小板块,每个板块同样简略,但并未忽视提示语的重要性和使用技巧板块,同时忽略了对于用户没有意义的清华大学贡献一栏。当然,文心一言总结的内容仅仅是略胜一筹,如果说通义千问总结的内容像大标题及简单介绍,文心一言总结的内容则是小标题加内容梗概,实质性内容依然稀少。

车轱辘话反复提及,重点内容过于简略,罕有实用性的内容,是当前 AI 大模型总结内容时普遍存在的问题。数万字的文件,浓缩成数百字,难免需要舍弃大量内容,在使用 AI 总结篇幅较长的文档时,最好还是按照生成的内容,再大致浏览一下原文档。

为进一步测试两款 AI 大模型的能力,决定缩小范围,让大模型根据文件中提示语链相关的内容,撰写一篇提示语链作用与设计原则的文章。

在这轮测试中,通义千问一改之前简略的风格,提示语链的作用、设计原则、设计模型三大板块均面面俱到,教导用户该如何设计和使用提示语链。

文心一言则延续了简约的风格,作用机制的分析和设计原则的解读给人一种未能准确理解文件的感觉。

本轮测试中,PDF 全文解读方面,文心一言表现稍好,提示语链专项内容生成方面,则是通义千问领先,二者互有优势。苹果同时与阿里巴巴、百度合作,或许可以综合二者的特点,为用户提供更完善的 AI 体验。

360 开发的纳米 AI 搜索 App,便提供混合模型方案,联合 15 家大模型厂商打造 AI 助手,能够自动调整大模型回答问题。未来或许其他企业也会采取此类方案,通过混合模型解决单一模型不擅长部分领域的问题。

图片修改:文心再胜一场

AI 摄影、AI 修图在如今已是极为常见的功能,许多手机厂商还会在新机发布时宣传 AI 修图功能。也对通义千问和文心一言的图片修改功能进行了测试,但本轮测试出现了一点意外。

通义千问本身不支持以文字指令修改图片,虽提供诸多可修改图片的智能体,但这些智能体却均不支持上传图片,无法正常使用,唯一可上传图片的修图智能体是 AI 扩图,又仅是等比例缩小或放大图片,并非根据画面已有内容,额外绘制不存在的内容。

文心一言倒是根据的要求,成功将图片的背景从灰蒙蒙的天空替换成蓝天白云。可灯塔主体却重绘,不再是原来的灯塔,而是根据拍摄照片和要求重新绘制了一张图,仅保留了主体的特征。

为进一步测试两款 AI 大模型的制图能力,以“海边矗立着一座孤独的灯塔,唯有蓝天白云和海鸟与其相伴”为描述语,要求通义千问和文心一言各生成一张图。从图片质量来看,文心一言生成的图片意境、清晰度、美感等方面均更胜一筹,而且文心一言会一次生成四张图片供用户选择。

本轮测试文心一言再次获胜,既可以根据原图重新绘制图片,也能根据用户的描述生成图片,而且生成的图片质量更高,原图大小为 1.48MB,通义千问生成的图片原图大小则仅为 73.2KB(注明:两张图片原图分辨率均为 1024×1024)。

通义千问 Qwen 2.5 作为一款开源模型,追求的是便于用户部署、使用、修改,更注重 B 端场景,对于 C 端用户的需求似乎没有那么上心。文心 4.0 Turbo 曾是闭源模型,面向 C 端用户收费,因而需要丰富手机 App 和 PC 端的功能。本轮测试的落后,并不等同于通义千问 Qwen 2.5 落后文心 4.0 Turbo。

左拥阿里右抱百度,苹果智能上双保险?

以上几轮测试中,通义千问和文心一言均有自己的优势项目:百度在图片生成和文档总结方面表现较好,通义千问则在提取重点内容并撰写文章方面更加出色。

因模型架构、训练所用的数据存在差异,AI 大模型之间自然也会出现优势领域不同的情况。苹果同时与阿里巴巴、百度合作,可能是充分利用两家企业的优势,实现扬长避短,在各种场景下均能为用户提供行业第一梯队的体验。

中文版 Apple Intelligence 与英文版在体验方面很可能会存在较大差距,哪一个更领先还不好说,阿里巴巴加上百度的 AI 实力加持的 Apple Intelligence,值得期待。

4499 元起的 iPhone 16e 略贵,好在 128GB/256GB 版本定价低于 6000 元,可享受政府补贴,3999 元 /4999 元即可入手,各大电商平台大概率也会推出一定的优惠方案。相较 iPhone 16 系列其他机型,拥有价格优势且支持 Apple Intelligence,能否推动苹果销量翻盘?关键还要看苹果在中国市场端出来的“AI 大餐”的体验。

手机 AI 进化一日千里,留给苹果的时间不多了

在苹果 AI 亦步亦趋时,安卓 / 鸿蒙阵营的手机品牌在 AI 上进展神速。

在海外市场,联想(Moto)和三星靠着 Google Gemini 和运营商支持正“大杀四方”;在国内市场,小米、华为、OPPO、vivo、荣耀等品牌已完成各自 AI 化进程,AI 功能可圈可点甚至让人眼花缭乱,甚至成了手机厂商“卷”的新焦点。

25 年春节后 DeepSeek 爆火,国产手机厂商(除了小米)大都第一时间接入了 DeepSeek,这其实证明了安卓手机开放性的优势:以后 DeepSeek 新模型,或者比 DeepSeek 更强的 AI 模型出现,安卓手机都可在第一时间接入,绝不掉队。

然而 iPhone 就只能让用户等,因为苹果封闭模式必须点对点合作,这会让 iPhone 用户的智能体验有代差。其实在中国用户等待苹果智能这半年时,DeepSeek R1/V3,xAI Grok 3 以及百度文心 4.5(即将发布,开源且免费)就已纷纷发布,AI 技术进步可谓是一日千里。姗姗来迟的苹果智能真能打吗?很悲观。

对中国用户来说,“苹果智能”依然是悬而未决的“饼”。从春节到现在,中国用户正在习惯使用强大的 DeepSeek 以及接入 DeepSeek 的微信、百度以及国产安卓手机等产品的 AI 服务,对 AI 的期待正在变得越来越高。苹果与阿里或者百度合作落地的“苹果智能”能否满足中国用户预期,依然有待观察。

正文完
 0