共计 1020 个字符,预计需要花费 3 分钟才能阅读完成。
花费 1450 元解锁 Operator,对于满怀期待的用户来说,无疑是一场心理考验。然而,付费后的反馈却五花八门。
有用户发现,Operator 可以在短短三分钟内帮助定位附近的牙医,并准确提供地址和联系方式;也有用户尝试将其作为学术助手,在 arXiv 平台上逐篇阅读论文后生成摘要。更有大胆的测试者试图挑战 Operator 的能力极限,比如让它访问 ChatGPT 官网——结果不出所料,遭遇了 OpenAI 精心设计的错误提示,充满了调侃意味。
尽管如此,Operator 的表现依然让人印象深刻。即使是早期版本,它也能在遇到验证码时主动请求人工协助,并且具备一定的自我反思能力。正如基础研究贡献者 Casey Chu 所言,虽然 Operator 偶尔会出错,但它的出现本身就是对未来的预演。
另一位核心贡献者 Yilong Qin 提到,Operator 的成功得益于测试时间的合理分配。通过逐步优化和反复尝试,它能够在较长时间内保持高效运作。姚顺雨进一步指出,借助强化学习的新方法,未来的 Agent 将实现质的飞跃,其进步速度或将媲美从 o1-preview 到 o3 的升级幅度。
从 WebGPT 到 CUA
回顾历史,OpenAI 自 2016 年起便开始探索如何让 AI 操控浏览器完成任务。Word of Bits 项目由 OpenAI 与斯坦福大学联合开展,参与者包括多位业界知名专家。而 OpenAI Universe 则致力于构建一个综合性的 Agent 训练环境,灵感来源于 ImageNet 的成功经验。
进入 GPT- 3 时代后,WebGPT 应运而生,显著提升了开放性问题解答的真实感和实用性。值得注意的是,WebGPT 团队中有四位成员同样参与了 Operator 的研发工作,其中包括研究主管 Reiichiro Nakano。
作为 Operator 的核心技术支撑,CUA(Computer Use Agent)在多模态理解、长上下文处理及思维链推理等方面实现了多项突破。这些特性使得 CUA 不仅能够更好地感知外界信息,还能持续跟踪任务进展并灵活调整策略。
Agent 的未来
站在发展的十字路口,Karpathy 将 Operator 比喻成数字世界的化身,认为其成长速度远超物理世界中的机器人。他预测,未来十年将是 Agent 全面崛起的关键时期,而非仅仅局限于某一年。
无论是技术层面还是应用场景,Operator 都展示了巨大的潜力。尽管现阶段仍存在诸多限制,但随着算法迭代和技术积累,我们有理由相信,这类智能体将在更多领域发挥重要作用。