微软开源创新框架:可将DeepSeek-R1等模型变成AI Agent

来源: 星球日报68天前
 微软在官网发布了视觉 Agent 解析框架 OmniParser 最新版本 V2.0,可将 DeepSeek-R1、GPT-4o、Qwen-2.5VL 等模型,变成可在计算机使用的 AI Agent。与 V1 版本相比,V2 在检测较小的可交互 UI 元素时准确率更高、推理速度更快,延迟降低了 60%。在高分辨率 Agent 基准测试 ScreenSpot Pro 中,V2+GPT-4o 的准确率达到了惊人的 39.6%,而 GPT-4o 原始准确率只有 0.8%,整体提升非常大。除了 V2,微软还开源了 omnitool,这是一个基于 Docker 的 Windows 系统,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成 Agent 的关键工具。(金十)
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥5,762.02亿
2 欧易OKX欧易OKX ¥2,129.24亿
3 HTXHTX ¥323.33亿
4 CoinbaseCoinbase ¥208.96亿
5 芝麻开门芝麻开门 ¥1,040.42亿
6 BitgetBitget ¥1,494.82亿
7 BybitBybit ¥1,740.54亿
8 Crypto.comCrypto.com ¥285.01亿
9 BitfinexBitfinex ¥15.05亿
10 抹茶抹茶 ¥2,186.98亿