OpenAI 升级 Operator 代理:全新 o3 模型提升性能与安全性
OpenAI 近日宣布,将 Operator 的 AI 模型从之前的 GPT-4o 定制版本升级为基于 o3 的模型。o3 是 OpenAI o 系列“推理”模型中的最新成员之一。这一新模型针对计算机使用场景进行了额外的安全数据微调,并包含旨在训练模型决策边界的安全数据集。
此次升级还引入了全新的计算机使用代理 (CUA) 模型,该模型基于 OpenAI 的 o3 版本构建。与之前的版本相比,新模型在浏览器交互时表现出更强的持久性和准确性,从而显著提高了整体任务成功率。此外,它还能生成更结构化、更清晰、更全面的响应。
根据 OpenAI 的测试结果,新的 CUA 模型在 OSWorld 和 WebArena 等基准测试中达到了业界领先水平(SOTA),并且在人类偏好评估中也表现出了优于前一版本的相对性能。
OpenAI 将基于 GPT‑4o 的模型替换为基于 o3 的版本
OpenAI 暗示 ChatGPT 操作员代理将迎来重大升级pic.twitter.com/iGPQp9butD
— SabatAge (@sabatage) 2025年5月22日
尽管 API 版本仍将基于 GPT-4o,但 OpenAI 表示,o3 Operator 采用了与 GPT-4o 相同的多层安全方法。此外,o3 Operator 还针对计算机使用场景添加了额外的安全数据进行微调,包括旨在教授模型确认和拒绝行为的安全数据集。
OpenAI 发布的一份技术报告显示,o3 Operator 在特定安全评估中的表现优于 GPT-4o Operator 模型。例如,o3 Operator 更少拒绝执行“非法”活动或搜索敏感个人数据的任务,同时对一种被称为“即时注入”的人工智能攻击具有更高的抵抗力。
“o3 Operator 采用与 GPT-4o 版本相同的多层安全方法……虽然 o3 Operator 继承了 o3 的编码功能,但它无法原生访问编码环境或终端。”
–OpenAI
OpenAI 还透露,基于 o3 的新模型已通过标准安全评估,Operator 将继续作为研究预览版向全球 ChatGPT Pro 用户开放。不过,升级后的模型仅在 ChatGPT 的 Operator 版本中提供。
Knoop 怀疑运行 OpenAI 的 o3 模型的成本可能比预期更高
上周,负责维护和管理 ARC-AGI 的 Arc Prize 基金会更新了 o3 的近似计算成本。该组织最初估计,其测试的最佳 o3 配置(o3 high)解决单个 ARC-AGI 问题的成本约为 3000 美元。然而,基金会现在认为,实际成本可能比之前的估计高出 10 倍,每个任务的成本可能达到约 3 万美元。
尽管 OpenAI 尚未正式发布 o3 或对其进行定价,但 Arc Prize Foundation 的联合创始人之一 Mike Knoop 认为,o1-pro 模型的定价可以作为一个合理的参考,以更准确地反映 o3 的真实成本。他补充说,在官方定价公布之前,o3 将继续在排行榜上被标记为预览版,以反映不确定性。
据 Arc Prize Foundation 称,考虑到该模型所使用的计算资源量,o3 high 的高价并非不可能。为了解决 ARC-AGI 问题,o3 high 使用的计算量是 o3 low(o3 的最低计算配置)的 172 倍。
有传言称,自 3 月初以来,OpenAI 一直在考虑为企业客户推出价格不菲的计划。据报道,该公司可能会向专门的 AI“代理”(例如软件开发人员代理)收取每月高达 2 万美元的费用。
然而,尽管有人认为,即使是 OpenAI 最昂贵的模型,其成本也远低于典型的人类承包商或员工的收费,但人工智能研究员 Toby Ord 指出,这些模型的效率可能不及人类。例如,o3 high 在 ARC-AGI 的每项任务中都需要尝试 1024 次才能获得最佳成绩。
Cryptopolitan 学院:厌倦了市场波动?了解 DeFi 如何助你建立稳定的被动收入。立即注册
- 15.17币圈行情分析:比特币与以太坊操作策略参考
- 2香港正式通过《稳定币条例草案》:全面解读其立法历程与核心内容
- 3Movement事件深度解析:项目方、做市商与VC的利益博弈与行业破局之道
- 4下周焦点:TRUMP主题晚宴与稳定币GENIUS法案最终表决领衔(5.19-5.25)
- 5空投周报 | WLFI通过向持有者空投USD1提案;Boop.fun提前关闭空投申领计划(5.12-5.18)
- 6GENIUS法案通过:稳定币监管新时代来临,哪些加密资产将受益?
- 7 如果你持有价值 1,000 美元的柴犬股票,到 2035 年,SHIB 能让你致富吗?
- 8 随着 LIBRA memecoin 调查的深入,阿根廷法院解除了 Milei 的银行保密制度
- 9Pi币面临崩盘危机:0.70美元支撑位能否坚守至2025年5月?