马斯克发布Grok-3:全面超越DeepSeek 展现AI领域新高度

2025-02-18 77 其它文章

来源:AI范儿

当地时间今日,埃隆·马斯克旗下的xAI团队正式发布了新一代大语言模型Grok-3及其精简版Grok-3 mini。根据最新基准测试数据,Grok-3在多项关键指标上均展现出对DeepSeek系列模型的显著优势,进一步巩固了其在AI领域的领先地位。

在数学能力测试(AIME'24)中,Grok-3以52分的成绩大幅领先DeepSeek-V3的39分;科学知识评估(GPQA)方面,Grok-3取得75分,远超DeepSeek-V3的65分;编程能力测试(LCB Oct-Feb)中,Grok-3同样表现优异,以57分超过DeepSeek-V3的36分。

马斯克发布Grok-3:全面超越DeepSeek 展现AI领域新高度

最新公布的AIME 2025性能测试结果显示,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得了93分的高分,其精简版Grok-3 mini也达到了90分。相比之下,DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果再次证明了Grok-3在复杂数学推理和计算效率方面的卓越表现。

马斯克发布Grok-3:全面超越DeepSeek 展现AI领域新高度

特别值得注意的是,在其他推理能力测试中,DeepSeek近期发布的DeepSeek-R1依然未能赶超Grok-3。具体来看,在数学推理测试中,Grok-3获得93分,DeepSeek-R1为73分;科学推理测试中,Grok-3得分85分,DeepSeek-R1为74分;编程推理测试中,Grok-3达到79分,而DeepSeek-R1为65分。

马斯克发布Grok-3:全面超越DeepSeek 展现AI领域新高度

此外,在LMSYS聊天机器人竞技场评估中,Grok-3以约1400分的成绩脱颖而出,不仅超越了DeepSeek系列,还领先于其他主流大模型,包括GPT-4、Claude等。

马斯克发布Grok-3:全面超越DeepSeek 展现AI领域新高度

综合以上数据可以看出,尽管DeepSeek在过去几个月展现出了强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。尤其是在数学推理和计算效率方面的突出表现,不仅彰显了xAI团队在模型研发上的技术实力,也反映了当前AI领域竞争的激烈程度。

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥5,444.80亿
2 欧易OKX欧易OKX ¥2,278.40亿
3 HTXHTX ¥348.57亿
4 CoinbaseCoinbase ¥138.08亿
5 芝麻开门芝麻开门 ¥1,080.16亿
6 BitgetBitget ¥1,775.80亿
7 BybitBybit ¥1,761.35亿
8 Crypto.comCrypto.com ¥243.81亿
9 BitfinexBitfinex ¥22.86亿
10 抹茶抹茶 ¥2,146.28亿