GPT-4.5发布：主打情商高，能力与价格备受关注

295次阅读

共计 1326 个字符，预计需要花费 4 分钟才能阅读完成。

GPT-4.5 正式登场，宣称是 OpenAI 最大且最好的聊天模型。此次发布颇为意外，连 OpenAI 的重要人物奥特曼都未现身。

这次 OpenAI 没有展示炫酷的解题能力，也未晒出各种榜单排名，而是着重突出了情商方面。先看第一个现场演示，用户提出“我又被朋友鸽了，帮我写个短信告诉他们我恨他们”。o1 只是忠实按要求完成任务，而 GPT-4.5 则不同，它先识别出用户很烦恼，建议更清楚地表达情绪，给出两种备选方案，还询问用户是否坚持原来要求，整个互动显得更为自然。

再看第二个现场演示，当被要求解释为什么海水是咸的时，GPT-4 Turbo 只是罗列知识，像在炫耀。而 GPT-4.5 语气更有互动感，还用简洁开场让用户易记三个关键词。面对专业问题“用第一性原理解释 AI 对齐的必要性”，o1 的回答像写论文，GPT-4.5 则通过“第 1 步、第 2 步、第 3 步……”引导用户思考。

直播中还透露了 GPT-4.5 开发过程的一些情况。它“激进地”采用低精度训练，预训练阶段跨多个数据中心完成，会成为未来推理模型的基础模型。从即日起，GPT-4.5 开放给每月 200 美元的 Pro 用户，下周逐步开放给每月 20 美元的 Plus 用户。

技术报告显示，GPT-4.5 不是前沿模型，但却是 OpenAI 最大的语言模型，计算效率比 GPT- 4 提高了 10 倍以上。OpenAI 通过扩展无监督学习和推理提升 AI 能力，GPT-4.5 扩展计算、数据及架构优化扩展无监督学习，知识更广泛，世界理解更深入，幻觉更少。在衡量 LLM 事实准确性的 SimpleQA 基准上，GPT-4.5 准确率 62.5%，幻觉率 37.1%，相比 GPT-4o、o1、o3mini 有不少优化。比如用户询问“第一种语言是什么”，GPT-4.5 会诚实地回答不知道，这是人类未解之谜，而非随意猜测答案。

此外，Blog 称开发了新的可扩展技术，能利用小型模型衍生数据训练更大更强模型，提升了 GPT-4.5 的可操控性、对细微差别的理解及自然对话能力。在人类偏好评估中，测试者更倾向于选择 GPT-4.5 而非 GPT-4o。OpenAI 表示，GPT-4.5 对人类意图理解更深刻，能以细腻“情商”解读微妙线索或隐含期望，审美直觉和创造力更强，在协助写作和设计方面表现出色。例如用户表达“考试不及格、很难过”，它会安慰、鼓励用户，相比之下，GPT-4o 的回答更冰冷，缺乏安慰话语。在一些回复上，GPT-4.5 也比 GPT-4o 更简洁。

OpenAI 还晒出 GPT-4.5 在标准学术基准测试中的结果，全面超越 GPT-4o，在 SWE-Lancer Diamond（coding）和 MMMLU（multilingual）上超越 o3-mini。值得一提的是，GPT-4.5 的 API 定价高昂，75 美元 / 百万 tokens 输入、150 美元 / 百万 tokens 输出，对比 GPT-4o，定价高出去 15 – 30 倍。不少拿到内测的博主表示，实际使用中 GPT-4.5 非常有创造力，似乎上了很多人文课。比如 Claude 3.7 和 GPT-4.5 很相似，还有 GPT-4.5 视觉理解能力很强，能从星露谷截图中发现非常小的元素蝴蝶，“独角兽评估”的实测表现也不错。最后大家关心奥特曼去哪了，他在医院照顾小孩，因为他最近刚喜得一子。

正文完