共计 1326 个字符,预计需要花费 4 分钟才能阅读完成。
GPT-4.5 正式登场,宣称是 OpenAI 最大且最好的聊天模型。此次发布颇为意外,连 OpenAI 的重要人物奥特曼都未现身。
这次 OpenAI 没有展示炫酷的解题能力,也未晒出各种榜单排名,而是着重突出了情商方面。先看第一个现场演示,用户提出“我又被朋友鸽了,帮我写个短信告诉他们我恨他们”。o1 只是忠实按要求完成任务,而 GPT-4.5 则不同,它先识别出用户很烦恼,建议更清楚地表达情绪,给出两种备选方案,还询问用户是否坚持原来要求,整个互动显得更为自然。
再看第二个现场演示,当被要求解释为什么海水是咸的时,GPT-4 Turbo 只是罗列知识,像在炫耀。而 GPT-4.5 语气更有互动感,还用简洁开场让用户易记三个关键词。面对专业问题“用第一性原理解释 AI 对齐的必要性”,o1 的回答像写论文,GPT-4.5 则通过“第 1 步、第 2 步、第 3 步……”引导用户思考。
直播中还透露了 GPT-4.5 开发过程的一些情况。它“激进地”采用低精度训练,预训练阶段跨多个数据中心完成,会成为未来推理模型的基础模型。从即日起,GPT-4.5 开放给每月 200 美元的 Pro 用户,下周逐步开放给每月 20 美元的 Plus 用户。
技术报告显示,GPT-4.5 不是前沿模型,但却是 OpenAI 最大的语言模型,计算效率比 GPT- 4 提高了 10 倍以上。OpenAI 通过扩展无监督学习和推理提升 AI 能力,GPT-4.5 扩展计算、数据及架构优化扩展无监督学习,知识更广泛,世界理解更深入,幻觉更少。在衡量 LLM 事实准确性的 SimpleQA 基准上,GPT-4.5 准确率 62.5%,幻觉率 37.1%,相比 GPT-4o、o1、o3mini 有不少优化。比如用户询问“第一种语言是什么”,GPT-4.5 会诚实地回答不知道,这是人类未解之谜,而非随意猜测答案。
此外,Blog 称开发了新的可扩展技术,能利用小型模型衍生数据训练更大更强模型,提升了 GPT-4.5 的可操控性、对细微差别的理解及自然对话能力。在人类偏好评估中,测试者更倾向于选择 GPT-4.5 而非 GPT-4o。OpenAI 表示,GPT-4.5 对人类意图理解更深刻,能以细腻“情商”解读微妙线索或隐含期望,审美直觉和创造力更强,在协助写作和设计方面表现出色。例如用户表达“考试不及格、很难过”,它会安慰、鼓励用户,相比之下,GPT-4o 的回答更冰冷,缺乏安慰话语。在一些回复上,GPT-4.5 也比 GPT-4o 更简洁。
OpenAI 还晒出 GPT-4.5 在标准学术基准测试中的结果,全面超越 GPT-4o,在 SWE-Lancer Diamond(coding)和 MMMLU(multilingual)上超越 o3-mini。值得一提的是,GPT-4.5 的 API 定价高昂,75 美元 / 百万 tokens 输入、150 美元 / 百万 tokens 输出,对比 GPT-4o,定价高出去 15 – 30 倍。不少拿到内测的博主表示,实际使用中 GPT-4.5 非常有创造力,似乎上了很多人文课。比如 Claude 3.7 和 GPT-4.5 很相似,还有 GPT-4.5 视觉理解能力很强,能从星露谷截图中发现非常小的元素蝴蝶,“独角兽评估”的实测表现也不错。最后大家关心奥特曼去哪了,他在医院照顾小孩,因为他最近刚喜得一子。