Google Gemini 2.5 Pro在AI智能与编码能力评测中表现卓越

2025-05-09 223 区块链

摘要

科技巨头“思考模型”在复杂的基准上优于竞争对手，现在可以免费提供所有用户。

币币情报道：

近日，Google推出的Gemini 2.5 Pro在编码领域取得显著成就，成功登顶WebDev竞技场排行榜首位。这一平台类似于LLM竞技场，但专注于评估AI模型在编码任务中的表现。此成就是在Google努力将其旗舰AI模型定位为编码和推理任务领导者的背景下实现的。

今年早些时候发布的Gemini 2.5 Pro在多个类别中表现突出，包括编码、风格控制和创意写作。该模型拥有庞大的上下文窗口，容量高达一百万个代币，并即将扩展至两百万。这使其能够轻松处理大规模代码库和复杂项目，而诸如ChatGPT和Claude 3.7十四行诗等模型仅能支持最多128K代币。

此外，Gemini 2.5 Pro在所有AI模型中展现出最高的“智商”水平。Trackingai通过标准化测试（如Mensa挪威的口头问题）来衡量AI模型的推理能力，Gemini 2.5 Pro在这些测试中表现出色，甚至应对未公开的定制问题也游刃有余。

离线测试显示，Gemini 2.5 Pro的智商得分为115，被评为“明亮的头脑”，远高于普通人类的平均得分范围（85至114）。然而，AI系统的“智商”概念需要理性看待，其更应被视为对推理基准的表现隐喻。

在其他专门设计的AI基准测试中，Gemini 2.5 Pro同样表现出色。例如，在AIME 2025数学测试中得分为86.7％，在GPQA科学评估中得分为84.0％。而在人类最后一次考试（HLE）中，这一旨在避免测试饱和问题的新基准上，Gemini 2.5 Pro以18.8％的得分击败了OpenAI O3 Mini（14％）和Claude 3.7 Sonnet（8.9％），显示出显著的性能提升。

目前，Gemini 2.5 Pro的新版本已免费开放（带速率限制）。Google将其描述为“2.5 Pro的实验版”，属于其“思维模型”系列，旨在通过推理而非简单生成文本提供更高质量的服务。

尽管未能在所有基准测试中夺冠，Gemini 2.5 Pro仍凭借其多功能性引起了开发者的广泛关注。通过单一提示，该模型即可构建交互式Web应用程序、无尽跑步游戏以及视觉模拟，而无需详细说明。

我们对其进行了测试，要求修复损坏的HTML5代码。结果显示，它生成了近1000行代码，在质量和指令理解方面超越了之前的领导者Claude 3.7十四行诗。

对于开发者而言，Gemini 2.5 Pro的输入价格为每百万代币150美元，相较于竞争对手更具性价比，同时依然提供令人印象深刻的功能。

该AI模型在其高级计划中最多可处理30,000行代码，适用于企业级项目。其多模态能力——结合文本、代码、声音、图像和视频——为编码相关任务提供了无可比拟的灵活性。

币币情登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

上一篇： 4大信号分析 7万美元是这轮牛市的起点还是终点吗

下一篇： SOL 有望突破 200 美元、其中有几条值得关注的关键因素

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥1.23万亿
2	欧易OKX	¥3,830.15亿
3	HTX	¥635.15亿
4	Coinbase	¥234.25亿
5	大门	¥2,928.42亿
6	Bitget	¥2,645.79亿
7	Bybit	¥3,142.97亿
8	双子星（Gemini）	¥19.85亿
9	Upbit	¥150.04亿
10	Crypto.com	¥604.22亿

排名	币种	成交额
1	泰达币	¥5,039.05亿
2	以太坊	¥1,754.03亿
3	比特币	¥1,567.48亿
4	Solana	¥845.07亿
5	币安币	¥732.58亿
6	USD Coin	¥687.26亿
7	瑞波币	¥449.92亿
8	First Digital USD	¥367.76亿
9	狗狗币	¥354.61亿
10	Sui	¥128.66亿