Google Gemini 2.5 Pro在AI智能与编码能力评测中表现卓越

9 小时前 19 区块链
摘要
科技巨头“思考模型”在复杂的基准上优于竞争对手,现在可以免费提供所有用户 。
币币情报道:

近日,Google推出的Gemini 2.5 Pro在编码领域取得显著成就,成功登顶WebDev竞技场排行榜首位。这一平台类似于LLM竞技场,但专注于评估AI模型在编码任务中的表现。此成就是在Google努力将其旗舰AI模型定位为编码和推理任务领导者的背景下实现的。

今年早些时候发布的Gemini 2.5 Pro在多个类别中表现突出,包括编码、风格控制和创意写作。该模型拥有庞大的上下文窗口,容量高达一百万个代币,并即将扩展至两百万。这使其能够轻松处理大规模代码库和复杂项目,而诸如ChatGPT和Claude 3.7十四行诗等模型仅能支持最多128K代币。

此外,Gemini 2.5 Pro在所有AI模型中展现出最高的“智商”水平。Trackingai通过标准化测试(如Mensa挪威的口头问题)来衡量AI模型的推理能力,Gemini 2.5 Pro在这些测试中表现出色,甚至应对未公开的定制问题也游刃有余。

离线测试显示,Gemini 2.5 Pro的智商得分为115,被评为“明亮的头脑”,远高于普通人类的平均得分范围(85至114)。然而,AI系统的“智商”概念需要理性看待,其更应被视为对推理基准的表现隐喻。

在其他专门设计的AI基准测试中,Gemini 2.5 Pro同样表现出色。例如,在AIME 2025数学测试中得分为86.7%,在GPQA科学评估中得分为84.0%。而在人类最后一次考试(HLE)中,这一旨在避免测试饱和问题的新基准上,Gemini 2.5 Pro以18.8%的得分击败了OpenAI O3 Mini(14%)和Claude 3.7 Sonnet(8.9%),显示出显著的性能提升。

目前,Gemini 2.5 Pro的新版本已免费开放(带速率限制)。Google将其描述为“2.5 Pro的实验版”,属于其“思维模型”系列,旨在通过推理而非简单生成文本提供更高质量的服务。

尽管未能在所有基准测试中夺冠,Gemini 2.5 Pro仍凭借其多功能性引起了开发者的广泛关注。通过单一提示,该模型即可构建交互式Web应用程序、无尽跑步游戏以及视觉模拟,而无需详细说明。

我们对其进行了测试,要求修复损坏的HTML5代码。结果显示,它生成了近1000行代码,在质量和指令理解方面超越了之前的领导者Claude 3.7十四行诗。

对于开发者而言,Gemini 2.5 Pro的输入价格为每百万代币150美元,相较于竞争对手更具性价比,同时依然提供令人印象深刻的功能。

该AI模型在其高级计划中最多可处理30,000行代码,适用于企业级项目。其多模态能力——结合文本、代码、声音图像视频——为编码相关任务提供了无可比拟的灵活性。

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥1.06万亿
2 欧易OKX欧易OKX ¥4,366.23亿
3 HTXHTX ¥719.16亿
4 CoinbaseCoinbase ¥267.84亿
5 芝麻开门芝麻开门 ¥1,450.38亿
6 BitgetBitget ¥3,241.49亿
7 BybitBybit ¥3,289.47亿
8 Crypto.comCrypto.com ¥529.21亿
9 BitfinexBitfinex ¥31.48亿
10 抹茶抹茶 ¥2,752.34亿