神秘上线的Optimus Alpha:是GPT-4.1?已被玩疯!

14次阅读

共计 2019 个字符,预计需要花费 6 分钟才能阅读完成。

上线仅仅三天的神秘模型,已然在网络上掀起了一阵热潮,简直是“鲨疯了”!

大模型聚合平台 OpenRouter 新近推出的 Optimus Alpha,其“战绩”可谓辉煌。它已经处理了高达 772 亿 Token,平均每天超过 200 亿。而且这个数据还在持续攀升,如今日 Token 处理量已超过 340 亿,在相关排名中位列第二,同时在 Trending 榜单上占据首位。

众多网友纷纷对其进行测试。有人尝试用它挑战 MC – Bench,生成《我的世界》风格的场景,并与 4o – mini 进行对比,结果优劣一目了然。还有人对它的编程水平展开系统测试,发现 Optimus Alpha 在 Ruby 语言上展现出了卓越的性能,堪称表现最佳的模型之一。甚至有人直接盛赞 Optimus Alpha 必定是当前最优秀的模型(SOTA)。

百万上下文窗口,面向现实世界任务

Optimus Alpha 具备支持百万上下文窗口的强大能力,最大输出位可达 32K。它的响应速度相当迅速,首个 Token 延迟中位数仅为 0.81 秒,输出速度中位数为每秒 24.8 个 Token。

从其介绍中可知,Optimus Alpha 主要面向现实世界中的各类任务,尤其着重提及了编程方面。有博主让它设计一个带有购物车功能的电商网站,Optimus Alpha 不负所望,设计出了合理的 UI 界面,就连其他很多 AI 都容易出错的购物车功能也能正常运行,并且在跨越不同文件时也毫无问题。或者让它编写一个贪吃蛇游戏,它不仅能顺利实现游戏功能,还加入了蛇头部颜色变化、蛇身颜色渐变等精巧设计,在创新性上超越了一些其他 AI 编程工具。更令人惊叹的是,有人用它编写出了支持手写文字的 OCR 文字识别应用。

在成绩方面,其 Elo 分数为 1338,在相关榜单中排名第二,仅次于 Claude 3.7 Sonnet,领先于 DeepSeek – R1,以及疑似 Optimus Alpha 前身的 Quasar Alpha。特别是在 SQL 数据库查询任务上,Optimus Alpha 取得了最高的平均成绩。在 Aider 榜单中显示,Optimus Alpha 的编程能力与 Quasar Alpha,以及 Grok 3 和中号 o3 – mini 相近,略胜过 GPT – 4.5 – preview。此外,Optimus Alpha 在创意写作上同样表现出色,Elo 分数排名第四,仅次于 DeepSeek – V3。

神秘模型来自 OpenAI?

为了探寻这个神秘模型的来历,人们展开了各种调查。一种较为简单直接的方式,就是让模型自己“交代”身份。由于 Optimus Alpha 目前在 OpenRouter 上可以免费使用,这就为试验提供了可能。当被问及自身身份时,Optimus Alpha 毫不犹豫地宣称自己是 ChatGPT。若进一步追问具体版本,它的回答是“基于 GPT – 4,知识截止时间 2024 年 6 月”。

此外,还有人依据 Optimus 这个名字,联想到特斯拉的擎天柱机器人,从而推测神秘模型可能来自马斯克。然而,也有人认为这或许是一种误导,如果轻信它来自马斯克旗下的公司,那就正中了某些人的“圈套”。

更具说服力的证据,要从已经下线的 Quasar Alpha 说起。它最早在本月 2 日出现。Reddit 上有网友发现,在尝试用 Quasar Alpha 进行违规操作时,模型的拒绝方式与 OpenAI 极为相似。而该网友提到的 Tokenizer bug,指的是更早之前有人发现 Quasar Alpha 在执行中译英任务时出现了与 GPT – 4o 同款的已读乱回现象。这种 bug 似乎是 OpenAI 独有的,在 Grok、Claude 以及 DeepSeek 上都不会出现此类情况。

还有人进行了更为复杂的分析。AI 研究员 Sam Paech(前面创意写作榜单也是由他发起)通过模型回答中的差异,运用信息学方法试图建立模型之间的关联。结果发现,Quasar Alpha 与 OpenAI 的模型极为相似,并且特别指出与 GPT – 4.5 – preview 的关联度很高。后来,奥特曼也在推文中对 Quasar Alpha 的身份有所暗示。

再回到 Optimus Alpha,经测试发现,ChatGPT 和 Quasar Alpha 中的同款 bug 在 Optimus Alpha 中再次出现。Paech 这边也有了新的研究成果,在最新的谱系图中加入 Optimus Alpha 后,发现与其最接近的模型是今年 3 月 27 日更新的 ChatGPT – 4o。从时间上看,Quasar Alpha 的下架时间是 Optimus Alpha 上线的次日,所以有人认为 Optimus Alpha 是 Quasar Alpha 的替代。

综合实验观察到的种种迹象,以及 OpenAI 以往以神秘模型方式进行社区测试的传统,再加上奥特曼对 Quasar Alpha 的暗示,Optimus Alpha 来自 OpenAI 的可能性整体来看是比较高的。至于更具体的细节,结合 OpenAI 刚刚泄露出的“GPT – 4.1”(被视为 GPT – 4o 的升级),以及 Paech 最新谱系图的印证……你觉得这个神秘模型的真实身份究竟是什么呢?

正文完
 0