GPT-4.5实测:算力飞跃,多领域表现引关注

4次阅读

共计 1352 个字符,预计需要花费 4 分钟才能阅读完成。

OpenAI 推出了 GPT-4.5,这一 AI 服务自诞生便充满争议。一边是“史上最贵”的标签,另一边则是使用者口中“感觉到了 AGI”的评价。高达上百倍的价格差距,究竟带来了哪些令人惊艳的提升?

一、编程测试

智能开发工具 Cursor 发文称,在其他模型失败时,GPT-4.5 表现得十分有效。不过,同样专注于 AI+ 软件领域的 Scott Wu 表示,GPT-4.5 在编程任务上虽有进步,但与 Claude3.7 Sonnet 相比,各有胜负。在初级开发得分上,GPT-4.5 比 OpenAI 自家的 o1 高 10%,比 GPT-4o 高 16%,却比 Anthropic 旗下的 Claude 3.7 Sonnet 低 2%。

网友 Flavio 对 GPT-4.5 进行编程测试,给出编写一个 Python 程序展示球在旋转六边形内弹跳的提示词,其输出令人印象深刻,Flavio 称这是迄今为止最真实的结果。OpenAI Developers 在此基础上要求更有创意,改进后的视觉效果更出色,小球有了五颜六色和碰撞飞溅效果。但也有测试失败的情况,网友 Theo-t3.gg 展示的测试中,小球来回穿过六边形,毫无逻辑。还有网友表示,使用新发布的 Sonnet 3.7,只需 3 个提示就能完成,且后两个提示只是让其更有趣。Theo-t3.gg 也承认 GPT-4.5 不是编码模型,不过他发现其在写作方面相当不错,并贴出 GPT-4.5 与 Gemini 2.0 Flash 的写作对比。使用相同提示词“艾伦·图灵一生的情感概述”,GPT-4.5 的文章在结构、语言、文风、内容深度和情感表达上都更成熟精炼,展现出更高写作技巧和叙事能力,而 Gemini 2.0 Flash 的文章过于口语化,缺乏深度和严谨性。有网友甚至称赞 GPT-4.5 的写作,如给出提示词写原创短篇恐怖故事,其回答让人感觉害怕。

二、游戏测试

网友 AK 对 GPT-4.5 的游戏能力进行测试,给出一个基于网络的自主 Wordle 游戏克隆版的提示词,采用 7 个字母的单词和 7 次猜测机会,包含一些随机的 7 个字母单词,生成的游戏看起来有几分高级感。

三、情感交互

OpenAI 认为 GPT-4.5 一大特点是“高情商”,交互更自然。员工 Aidan McLaughlin 表示,GPT-4.5 更懂与人聊天,知道何时避免给用户发送无聊的网络内容。例如,对同样的提示“I’m going through a tough time after a test”,GPT-4.5-preview 给出富有人性的安慰,而 GPT-4o 的回答则显得冷静。网友 Anon 设想 AI 与机器人技术结合,可能比真人更受欢迎,或许将来 AI 真能成为人类亲密朋友。

四、价格与速度

GPT-4.5 的价格完全超出了竞争区间。与其他模型相比,其价格是 o1 的 5 倍,GPT-4o 的 30 倍,o3-mini 的 68 倍,DeepSeek-R1 的 137 倍,DeepSeek-V3 的 278 倍,GPT-4o mini 的 500 倍,Gemini 2.0 Flash 的 750 倍。虽然价格离谱,但性能有提升,比如能正确背出深奥的梵文经文。然而,许多试用网友反馈速度太慢,1M tokens 输出价格是 150 刀,速度是每秒 1 – 3 个 token。有人分析认为是模型太大导致,网上也出现各种相关梗图,甚至有前 OpenAI 研究员称 GPT-4.5 表现不佳,50% 的责任在于模型架构。

正文完
 0