AI手机竞争激烈,苹果能否再领先国产厂商?

5次阅读

共计 3486 个字符,预计需要花费 9 分钟才能阅读完成。

AI 手机行至第二阶段

在讨论苹果与国产厂商在 AI 手机领域谁能领先之前,先来看看 AI 手机目前处于什么阶段。从广泛层面来说,AI 手机被划分为 App 化、功能化和原生化三个阶段。去年年初各类类似 chatGPT 的 App 出现,标志着第一阶段。随着 OPPO、三星等厂商推出 AI 手机,第二阶段已然来临。今年 1 月发布的 OPPO Find X7 和三星 Galaxy S24 等手机,带有典型的 AI 功能化特征,如支持通话摘要、AIGC 消除以及 AI 语音助手等。

在 AI 手机的整体思路上,各家趋于一致,即将大模型的能力内化到操作系统中,不再以显眼的 AI 应用呈现,而是进一步落地到具体手机使用场景,让 AI 功能看似不存在却又无处不在。具体功能集中在以下几类:

输入法方面,将生成式 AI 集成到键盘软件,提供风格建议和智能重写等功能。像三星 Galaxy AI 允许用户以不同的风格和情绪改写句子,同时还能进行拼写和语法改正。实时翻译和转录功能上,三星 Galaxy S24 和华硕 Zenfone 11 Ultra 可利用设备端 AI 功能实现通话实时翻译,S24 的实时翻译功能还能提供电话的实时转录并在屏幕上显示文本方便参考,Zenfone 的 AI Transcript 可自动将语音转换为书面文本。图像内容生成和编辑方面,小米 14 和小米 14Ultra 引入了“AI 人像”功能,用户可用图库里自己的照片训练,训练完成后输入文本提示就能生成逼真的 AI 自拍;OPPO Find X7 Ultra 可实现 AIGC 橡皮擦功能,能在离线状态下从照片中删除不需要的物体或人物。通过 LLM 实现 AI 驱动的个性化功能,三星 Galaxy S24 可根据提示生成类似人类的文本能力,协助编写邮件或文档,OPPO Find X7 Ultra 提供上下文感知的多回合对话和虚拟助手。生成式 AI 界面工具方面,荣耀的任意门功能允许用户在应用程序之间拖放文本或图像等元素,AI 预测用户意图并建议相关的应用程序来共享内容。

按照上述功能来看,苹果被评价“没有惊喜”,是因为其主要功能点也落在了文本类、图片类、语音转录、语义搜索和语音助手上,仍处于 AI 手机的第二阶段。不过,苹果似乎玩了个障眼法,发布会上没公布自研大模型,导致股价短暂震荡。但发布会后,苹果在一篇低调发表的技术博客中暗搓搓介绍,端侧模型和云模型都是自己开发的。端侧模型是一个 30 亿参数(3B)的小模型,云上模型具体参数未公布。3B 级小模型和主流几个 7B 级模型能力上苹果基本能胜出,其云端模型更是达到了 GPT-4 Turbo 级。并且,有分析认为,即便苹果实现的 AI 功能不突出,但在 AI 功能落地方面做得更好,仍具有一定优势。以文生图功能为例,苹果将其落到真正需求上,如颜表情 GenEmoji、聊天 message 中配图、iPad 文档处理草图变精图等,AI 介入让这些功能变得真实有用,带动了用户需求。而这还不是苹果最大的野心。

从功能化到原生化

去年 12 月,腾讯发表了一篇题为《AppAgent: Multimodal Agents as Smartphone Users》的论文,介绍了一种新颖的基于 LLM 的多模态 Agent 框架,旨在操作智能手机应用程序。简单说就是腾讯设计了一个框架,能使智能体模仿人类的点击、滑动等交互操作来控制手机,且无需访问系统后端,在不同 App 中有高度适用性。腾讯为 AppAgent 设定了三个核心功能:自主探索学习,即智能体可独立探索应用程序,无需外部指导;观察人类演示学习,智能体通过观察用户操作演示来学习任务执行;知识库构建,智能体通过上述学习过程积累经验,构建知识库用于跨应用执行复杂任务。

理论意义上,AppAgent 是一个帮用户操作所有 App 的应用,类似于苹果发布会上用户告诉 Siri 想去接机,Siri 可调取邮件里的航班信息、查找最新航班资讯、调用地图 App 形成路线,最终生成一份完整建议。将多模态能力融入用户 UI 界面,通过理解 UI 来执行智能体指令,或是 AI 手机从功能化迈向原生化的一个重要转折标志。苹果发布的 Ferret UI 大模型,就意图在操作系统层学习用户使用习惯、并有望替代用户执行操作。

基于对 UI 的理解,配合端侧智能体的任务规划和分配能力,AI 手机具备了重大跨越的潜力:用户使用自然语言下达指令,AI 手机理解意图并将其拆分为具体工作流,然后从 UI 层面模拟用户操作以执行指令,最终实现跨 App 的操作与复杂任务执行。如此一个 AI 原生的手机操作系统的主要架构就完成了。

举例来说,当用户以自然语言向 AI 手机输入指令“帮我买一张明天下午 2 点去北京的靠窗的火车票”,手机智能体先接受语音、做语义分析和意图理解,然后进行任务拆分,拆分为:打开 12306 App、选择搜索车票、选择地址“北京”、选择“明天下午 2 点”、选择“靠窗”、选择“乘客姓名”、点击“购买”;并通过 UI 类模型,解读 App 上不同的 UI 界面,并模拟用户点击操作,实现整个流程。这一系列操作与苹果在发布会上的演示很像,只不过苹果现阶段没有使用智能体的称呼,而是称之为理解用户情境,实现跨 App 操作。

类似的产品在今年 MWC 展上也出现了。Brain.ai 展示的基于 App-less 交互模式的概念手机 T -Phone,用户只需在对话框中输入需求,即可得到快速响应。T-Phone 的核心概念是抛弃传统围绕 App 设计的手机,转而通过 AI 使用上下文预测来生成界面,帮助用户完成任务。国内厂商中,荣耀在魔法 OS 上推出的任意门功能也是 AI 手机原生化的雏形。它允许用户在应用程序之间拖放文本或图像等元素,虽被罗永浩怒怼抄袭,但其核心能力是“AI 预测用户意图并建议相关的 App 来共享内容”。荣耀当时宣称,推出时预计支持全球约 100 个最常用的应用程序。

无论苹果、腾讯、荣耀或者 Brain.ai,这些公司希望最终达成的目标是:用户只需要输入想要获得的服务(通过语音、文字等形式),手机会直接跳转到服务页面,或是由 AI 智能体直接完成用户所需要的服务。但基于 AI 智能体的多元、自然交互体验,必须要有足够的甚至所有的功能和服务支撑。在此基础上,AI 智能体的交互才能从传统 GUI(Graphical User Interface)发展成 VUI(Voice User Interface),最终升级为全新 Agent(App-less)UI,意味着用户与手机的交互将发生在 AI 智能体和用户之间,弱化 APP 的存在感。所以这一演进预计不会一蹴而就,未来很长一段时间内,AI 智能体与 App 会同时活跃在 AI 手机里。而且不仅手机厂商,头部 App 也可能围绕自己的业务生态打造专用 AI 智能体,例证就是腾讯发表的那篇论文。

尾声

再回到最初的问题,在 AI 手机领域,苹果是否还能突出。从表面看,苹果似乎没有突破已有 AI 手机特征,但有三点值得关注。

第一,苹果利用 Siri 实现的跨 App 操作,已经非常接近 AI 手机原生化阶段的智能体了,目前国产品牌在这方面仍然落后。

第二,在第二阶段的演进上,苹果仍保留着技术优势。比如在解决大模型手机内存瓶颈的问题上,苹果和国产品牌选择了不同的技术路线。苹果通过内存优化来解决小内存运营大模型的问题,构建了一个以闪存为基础的推理成本模型,并使用窗口化(Windowing)以及行列捆绑(Row-Column Bundling)两项关键技术,来最小化数据传输并最大化闪存吞吐量。简单来说,苹果做到了让 8G 内存的 iPhone 15 Pro 跑通 3B 参数模型,而同样是 8G 内存的 Pixel 8 和 8a,今年 5 月才跑通 1.8B 的 Gemnini Nano。相较之下,国产厂商能在 12G 内存机型上跑通 7B 参数大模型,是因为选择了压缩路线。如 vivo 和 OPPO 都已在端侧跑通 7B 参数大模型,不过核心能力来自联发科,借助后者的混合精度 INT4 量化技术和 NeuroPilot Compression 技术,能将 130 亿参数 LLM 所需的内存空间,从 13GB 减少到 5GB。荣耀在今年 4 月也宣布,基于自家平台级 AI 压缩技术,7B 模型能在 12GB 内存设备上快速启动。总之,在 AI 手机领域的竞争,已不再是有没有大模型,而是如何以更低成本提供更好服务。

第三,苹果宣布开放 AI SDK,这可能是被很多人忽略的一个重磅信息。未来开发者可调用苹果手机的 AI SDK,基于用户情境理解,完善第三方 App 的 AI 功能。作为目前用户手机的主要使用场景,未来第三方应用搭载 AI 能力后,AI 手机的使用体验将得到增强。但对于国产厂商来说,这可能是件比较难的工作。所以,国产厂商的问题就变成了,虽然在想法和布局上突出了苹果,但在技术和生态层面依旧要追赶,而这恰恰是苹果难以被超越的护城河。

正文完
 0