共计 5503 个字符,预计需要花费 14 分钟才能阅读完成。
6 月 11 日凌晨 1 点,苹果公司召开今年的开发者大会 WWDC,用近半首场发布会篇幅讲述 AI 如何整合到苹果系统中,使其融入 Apple Intelligence,实现人工智能无形化。媒体和资本对此评价两极分化。一部分人认为苹果软硬件结合,在系统层面提供 AI 能力,给众多 AI 创业者带来巨大冲击;另一部分人则觉得苹果此次更新缺乏新意,新功能仍集中在常见的“文生图”“文本总结”“跨应用联动”等方面。不过,从发布会后股价上涨近 7.26% 来看,资本市场对“苹果 AI”基本满意。英文版 Apple Intelligence 今年秋天上线,其他语言版本要到明年才有后续,这半年时间里,AI 行业或许会有新变化,其他竞争者可能会对苹果的蓝图发起挑战。
科技公司全面卷入 AI
AI 浪潮涌起后,美股七雄(Alphabet、亚马逊、苹果、Meta、微软、英伟达和特斯拉)分化明显,市值排序起伏不定。6 月 5 日大涨后,“卖铲子”的 NVIDIA 市值超 3 万亿美元,超越苹果,距离微软的 3.15 万亿仅差不到 5% 的涨幅;微软借助 AI 登上榜首,借 OpenAI 的东风建立了更好的工具和商用系统,还推出了 AI-PC,23 年营收高达 2210 亿美元;Meta 用开源大模型造福国内公司,通过 AI 改进广告、内容审核和个性化推荐,利润翻了两番;亚马逊将 AI 整合到 AWS 框架中,着眼企业级 AI,还投资了 Anthropic,与 NVIDIA 合作 Blackwell Gpu;Alphabet 对标 OpenAI 节奏,稍有涨幅;特斯拉掉队,苹果则还在规划蓝图。
在大模型领域,科技公司存在“害怕错过”的心理,都想拥有独特优势;在产品和生态方面,后发制人具有一定优势。非盈利机构 OpenAI 是最大的推动力量,苹果与其合作顺理成章。苹果放弃造车后,专注于 AI 更广泛的应用,提出个人化 AI(Personal),与微软的工具性 AI(Azure/Microsoft365/Copilot)不同,它充分利用生态优势,更注重操作的“非 AI 感”,强调理解用户情境,与用户生活融合,并重视隐私保护。
苹果发布会上展示了一个例子,比如去机场接妈妈,Apple Intelligence 能直接读取妈妈发来的航班信息,查询航班延误情况和机场交通,自动生成行动时间表并更新在日程中,原本需要花费好几分钟安排的事情现在能自动完成。这与 Siri 类似,都是生活工作小助手的定位,但 Apple Intelligence 功能更强大。它用语言界面替代操作界面,更能理解人的需求和语言含义,不仅仅是在数值上表现更聪明。这是让 AI 与人类生活方式相契合,既巧妙又合理。
据“新皮层”报道,Apple Intelligence 的模型架构主要由 3 部分组成,按调用优先级分别是自研的端侧模型、云端模型和 GPT-4o 等第三方模型。其中自研模型是苹果发布的一系列小型模型,像可以读懂 iPhone 屏幕的多模态理解模型 ReALM(Reference Resolution As Language Modeling),OpenELM(开源高效语言模型)等。由于苹果的模型能力不及 OpenAI,所以选择接入第三方模型,且第三方模型可能不止 GPT-4o。《华尔街日报》3 月也曾报道,苹果还曾与百度初步谈判,打算在其中国版设备(如 iPhone)中使用百度的 AI 技术,不过苹果从未证实这一传闻。
如此看来,Apple Intelligence 更像是由多种模型组装而成的工具包,各部分发挥着不同作用。在苹果生态里,AI 并非简单的对话、唱歌、画图小软件,而是能帮人完成一系列复杂操作的 AI-Agent,它连接各平台设备,提升使用体验,一部分是以智能家居的方式,另一部分则充满想象空间。
当然,AI 的聚合与融合,离不开 AI 公司、资本、政府的高期望,而 AGI 就是这种期望的体现。若将实现 AGI 作为最终目标,当下的 AI 处于大力投入基础设施建设的阶段,包括投入算力、新型数据中心、模型等。这三类投资分别对应生产 GPU+ 卖 GPU 的云 + 用 GPU 训练模型的公司,即英伟达、AWS+Azure 和 OpenAI 等大模型公司。苹果算是其中的异类,它既不开发新模型,也未推出新应用,只是进行整合。
然而,AGI 的实现还很遥远。在 AI 造富的道路上,一些 AI 公司开始面临困境,出现破产、倒闭、寻求收购等情况。2024 年第二季度还未结束,曾经估值 10 亿美元、拥有 180 名员工、创造出 Stable Diffusion 系列模型的明星独角兽 Stability AI 就资金链断裂,寻求合并。前 OpenAI 和谷歌 AI 开发人员创立的 AI 公司 Adept 也在谈判出售价格。在这个“洗牌期”,即便有足够资金支撑的 AI 公司,也开始裁员并降低成本。
这些现象揭示了残酷的行业现状:所有 AI 公司 / 项目,包括巨头在内,盈利都很困难。连 OpenAI 都只能靠不断融资来维持 ChatGPT 高昂的运行成本。其他效仿其订阅模式和企业版模式的玩家,处境只会更艰难。Meta 为 AI 建设增加了约 100 亿美元预算,但未来几年内仍不指望盈利。
据行研机构 PitchBook 数据,AI 创企在 2021 – 2023 年获得了约 3300 亿美元投资,同比增长 2 /3,但很多 AI 创企的资金仍不够用,高昂的 AI 建设成本和人工成本拖垮了不少公司。
国内的情况是,炼制大模型的巨头虽能无忧生存,但因竞争激烈,打起了价格战。5 月 6 日深度求索(DeepSeek)发布的 DeepSeek v2,提供的 API 定价仅为 GPT-4-Turbo 的近百分之一,之后智谱、字节、阿里、百度、科大讯飞和腾讯都纷纷下调了部分大模型的 API 价格。
考虑到国内大模型大多面向企业用户和特定行业,可能是性能评测标准不够刺激,也可能是大模型落地困难,性能遇到瓶颈,只能进行同质化竞争,价格战成了国内大模型行业问题的缩影和最终解决方式。
国内的 AI 公司和产品长期对标 OpenAI,期望自家的 AI 在跑分、推理、表现等方面超过 GPT 系列,至于是否做到暂且不论,但其中存在一些误区。AI 与搜索引擎、平台入口、内容站不同,其技术性更强,在实际进入应用领域之前,是纯粹的科学和技术投入事业。
在国内环境下,人们对 AI 的实质和真正用途之间存在“理解鸿沟”,这首先是由大模型的黑箱性质造成的。同时,国内的 AI 产品,无论是豆包、元宝、Kimi,还是阿里激进投入整条赛道所做出来的东西,目前呈现出的能力很难让用户持续买单,更难以获得企业级用户的认同。毕竟 GPT-4o 和 Midjourney 早已设立了行业标准。
苹果 AI 为国内市场提供了新思路:跑分高只是抽象能力,自研模型够用即可,多模型融合、多层级协同,让 AI 实际发挥作用,融入整体应用环境才是关键。
理论上,AI 可以与人类制造的所有软件、系统、数据库、云、电子设备结合,并产生新的交互模式。例如,当 AI 掌握了搜索引擎的使用方法和用户需求,就会诞生新的流量和内容入口,搜索将成为 AI 的子功能,以往的计算广告投放模式也会受到影响。
AI 正在改变一切,重新安排事物的重要性。是时候拥抱新世界,创造新事物了。总比等苹果做好一切,国内再去模仿要强。AI 时代与流量时代截然不同,起码“模仿式创新”会变得更加困难。
AI 改变个人工作流,但尚未改变行业
生成式 AI 的冲击改变了科技行业的发展轨迹,但在普通人看来,这种冲击在 ChatGPT 发布之后逐渐减弱。文字工作者(如笔者)和广义的内容创作者们早已全面接受 AI。虽然 AI 很难创作出 80 分以上的作品,但它能高效满足创作者工作流中的各种离散需求,如快速生成大纲、与用户头脑风暴、模仿文风、修改文本、长文本翻译、文字 - 语音互转、信息获取、数据整理、梳理财报等,在这些方面 AI 表现出色。
在艺术、影视、教育、人文学术圈,AI 很受欢迎,它提供了快速试错和筛选的工具,自身也成为一种卖点和噱头,代表着机遇与危机感。任何研讨会加上“AI 时代”的名头,都能吸引更多注意力和流量。
这一波生成式 AI 的发展可能会经历四个阶段:惊艳的玩具、(多样化且具备替代效应的)生产力工具、个人化系统、(具有网络效应)的生态系统。目前的产品大多处于从第一阶段向第二阶段过渡的状态。
大部分 AI 产品,包括国外的,长期使用下来,除了内嵌在应用和网页中的 AI 以及特定用途 AI(如 wiki AI,notion AI,memo AI,Perplexity)外,大多华而不实,存在大量重复建设。
当下,AI 更多是给人带来新鲜感,对个人工作的助力大于对组织的改变,它只是改变了游戏的乐趣,并未改变游戏规则,就如同个人写作选择 Word 还是 Ulysses,只有细微的体验差别,与生产力并无直接关联。工具需要组织化、社会化、网络化,才能发挥最大效能(如微信和 github)。
回到产业层面,AI 尚未颠覆任何领域,也没有干掉任何公司,除了那些做二次开发(套壳)的公司,它们每次在 OpenAI 发布新产品时都会哀叹不已。在客服、审核等岗位存在行业替代性,但尚未大规模爆发,因为 AI 还不够先进,无法重塑流程。
与互联网浪潮不同,大模型时代或许不需要 Killerapp,无论 AI 多么强大,要整体提升工作流程、提供端到端的输出都比较困难。这些流程依赖长程推理、常识和行业专业知识,仅靠语义链接远远不够。
大模型作为概率模型,在低容错率场景下仍面临诸多问题,远没有人们想象的那么神奇。笔者在写这篇文章时,让 GPT-4o 查询 NVIDIA 近年股票和市值变化,这看似简单的问题,它需要先将问题拆解成步骤,分别搜索相应信息,再做总结,结果还出错了,速度甚至不如直接用搜索引擎。
此外,很多定制化工作中,可能 90% 的文档都无法满足大模型 Embedding 时的质量要求,需要进行大量数据清洗才能使用。而且大模型的注意力不够稳定,经常被不相关问题干扰,出现幻觉。
大模型的产品发展与互联网产品发展还有一个显著差异:边际成本非常高,模型成本远高于人力成本和买量成本。移动互联网时代的 App 可以小步快跑式迭代,但基于底层大模型 + 开源小模型的鸡尾酒分层打法的 App 尚未找到类似的迭代路径。因此,目前还不存在大公司被小公司弯道超车的可能性。
当然,假以时日,AI 也许能在软件编写方面有所作为。纽约市风险投资基金 Pace Capital 的创始合伙人 Chris Paik 在《软件的终结》一文中提出,大模型不一定会颠覆 toC 产品,但有可能颠覆软件生产。因为软件成本主要在于开发人员将人类语言翻译成计算机语言,而大模型或许在这方面比人更擅长,从而形成液态系统,建立中间层,连接一切。
“代码将变得灵活可塑,传统的技术栈概念将逐渐消失,取而代之的是由 AI 生成的微服务的流动海洋,这些微服务可以根据需要进行重新组合和再构。”苹果似乎也认同这一观点。
如果没有 AGI,你还会期待 AI 吗?
不要对 AGI 抱有过高期望。在业界热烈讨论 AGI 何时能实现时,学界泼了冷水。图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann Lecun)不认可 AGI,他认为不存在通用智能,大模型也不可能通向 AGI。他还在 X 上表示,“如果你是一名对构建下一代人工智能系统感兴趣的学生,不要研究大型语言模型(LLMs)”。
杨立昆并非唯一反对 AGI 的人。李飞飞从另一个角度论证了类似观点,她认为无论大模型有多少参数,AI 都无法拥有“知觉”,即所有的感觉,如饥饿、疼痛、坠入爱河等,所以 AI 不可能拥有主观体验的能力,甚至无法接近人类智能。
李飞飞曾经的老师,香港大学马毅认为,当前生成 AI 的能力依靠规模定律(Scaling Laws)涌现,但规模定律并非物理定律,而是一种偶然,迟早会失效,AI 并非只有通过喂数据、堆参数这一种方式来构建。
马毅在接受《晚点》采访时说,“如果你的信仰就是 Scaling Laws,觉得把现在的系统做大就能实现 AGI,我觉得你该改行了。因为你已经不可能有作为了,你就只能做一个螺丝钉”。大模型是有极限的,随着语料库耗尽、Scaling Law 失效,以及算力和电力几何级数增加,内部黑箱无法破解,也许有一天,生成式 AI 的发展会停滞,这并非不可能。
回想 AlphaGo/Zero 大展神威的时代,人们对 AI 的能力既惊奇又恐惧,代表人类最强棋手的李世石输给 AI,似乎预示着碳基生命的命运走向。但现在看来,并非如此悲凉。
当时,笔者偶然与人工智能早期先驱、《GEB》作者侯世达(Douglas Hofstadter)见面,问他 Alphago 是否实现了某种意义上的“智能”,他回答说并非如此,即使 Alphago 战胜了人类,但与人类相比,AI 还是太简单,如同缸中之脑,对现实一无所知。他坚信深度学习无法实现智能,但可以很好地解决一些问题。
当 Sora 出现时,人们讨论它是否理解物理世界(尽管它内置了牛顿定律),物理主义者可能认为 AI = 大脑 = 智能 = 有无限潜力的理解工具,但有常识的人会认为这是个错误的问题。
如果没有 AGI,AI 前进的动力和目标是什么?OpenAI 联合创始人 Greg Brockman 有一个恰当的比喻,人工智能被“烘焙”进了经济之中。这意味着,AI 的部署需要与其他“原料”混合,它们以不同方式运作,经过一段时间后开始发挥作用。从消费者角度看,与 ChatGPT 的对话就像调用一次 API,如同访问一次网站、下载一部电影。随着技术发展,公司将 AI 细化,使其融入软件之间、用户界面以及无数中间层,功能变得越来越细微,用户会逐渐习惯 AI。
苹果对 AI 进行深度整合,即便表现平庸,至少可用。未来,也许 AI 能服务于每个人的日常生活,最终,人们无需察觉到 AI 的存在。大模型虽未诞生杀手级应用,但手机形态可能比大多软件商活得更久,这是从 2024WWDC 隐约能看到的图景。