OpenAI开源BrowseComp,重塑Agent浏览器评测

来源: 金色财经210天前
,今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。(AIGC开放社区)
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥7,259.99亿
2 欧易OKX欧易OKX ¥2,580.77亿
3 HTXHTX ¥418.05亿
4 CoinbaseCoinbase ¥206.78亿
5 大门大门 ¥1,814.36亿
6 BitgetBitget ¥911.93亿
7 BybitBybit ¥2,053.92亿
8 K网(Kraken)K网(Kraken) ¥89.10亿
9 双子星(Gemini)双子星(Gemini) ¥5.15亿
10 UpbitUpbit ¥81.95亿