共计 1046 个字符,预计需要花费 3 分钟才能阅读完成。
北京时间 2 月 28 日,OpenAI 举办直播发布了 GPT-4.5(研究预览版),然而 OpenAI CEO 未亲临,官方也表明其并非前沿模型。相比两年前 GPT- 4 发布时的隆重,此次迹象显示 OpenAI 也不认为 GPT-4.5 是里程碑式升级。
不过,GPT-4.5 仍是 OpenAI 最新最强的聊天模型,回答情商更高,相比 GPT-4o 准确率提升 24%,幻觉率降低 24.7%。但使用 GPT-4.5 的成本极高,输入(缓存未命中)达 75 美元 / 百万 tokens,输出为 150 美元 / 百万 tokens,其 API 价格是 GPT-4o 的 30 倍,是 DeepSeek-V3 的 277 倍,DeepSeek-R1 的 136 倍,若对比 DeepSeek 优惠时段价格更是高达 555 倍。
从大模型常规比拼的“智商”看,GPT-4.5 进步不大,在一些基准测试中跑分提升幅度仅 5% 左右,远不如推理模型 o3-mini(high)。但在直播演示中能明显感知其在对话中对人类需求和意图理解更好,情商有所进步,比如在用户表达情绪时能给出更具建设性的回应,在内部测试中测试人员也认为与 GPT-4.5 对话更接近人类交流方式。同时,在幻觉减少方面也有成效,在 SimpleQA 常识问答测试中,GPT-4.5 编造答案或产生幻觉的比例约为 37%,而 GPT-4o 接近 60%。
MIT 科技评论采访的公司联合创始人兼 CTO 表示 GPT-4.5 最多只能算半代升级,OpenAI 投入更多训练算力却带来高昂推理成本。尽管未披露训练成本,但 Sam Altman 指出其是巨型昂贵模型,GPU 不够用需增加数万个 GPU 才能供更多用户使用。GPT-4.5 的 API 定价远超众人意料,比自家主力大模型贵,比 Claude-3.7-Sonnet 贵 25 倍,和 DeepSeek 相比更是离谱。
GPT-4.5 在训练上引入了“无监督学习扩展”,这是其在情商和幻觉方面改进的关键创新之一,还证明了用小模型训练大模型的可能。但无论如何,其训练和推理成本让人难以接受,人们期待即将发布的 DeepSeek-R2 能带来惊喜。
今年 1 月初,Sam Altman 写了“六字故事”:near the singularity; unclear which side。DeepSeek-V3 和 R1 带来冲击,让 OpenAI 闭源策略受质疑,大家转向性能强、性价比高的 DeepSeek 等模型。回归模型本身,GPT-4.5 拥有更大知识库、增强的创造力和更自然对话风格,可能更擅长创意和细腻任务,产生幻觉更少,通用性更强,这或许会让 ChatGPT 订阅用户有续订理由。