人类最新Claude 3.7十四行诗AI模型在Pokémon Red上的表现引人注目

2025-02-26 66 其它文章
摘要
人类的基准测试了其最新的AI模型Claude 3.7十四行诗,该模型在Nintendo的Game Game Boy上的经典游戏PokémonRed上。该模型的性能明显更好 。
币币情报道:

人类对其最新的AI模型Claude 3.7十四行诗进行了基准测试,使用的是Nintendo Game Boy上的经典游戏Pokémon Red。相比之前的版本,该模型的性能显著提升,并成功完成了12个里程碑。

在最近的一篇博客文章中,人类详细介绍了这次测试的情况。公司发布了一张图表,显示了Y轴上的“里程碑”和X轴上的“动作数”。图表对比了3.7十四行诗与3.5十四行诗(新)、3.5十四行诗和3.0十四行诗的表现。其中,3.7十四行诗表现出色,执行了超过35K的动作,达到了12个里程碑。在游戏中,它成功击败了三位体育馆领导者并赢得了各自的徽章。相比之下,Anthropic早期的3.0十四行诗只能执行几千个动作,无法跨越游戏的初始阶段。

人类基准测试了其最新的Claude 3.7十四行诗AI模型,使用PokémonRed
Claude 3.7十四行诗演奏PokémonRed的结果(来源:拟人)

关于最近的游戏测试,Anthropic指出:“神奇宝贝是一种欣赏Claude 3.7 Sonnet功能的有趣方式,但我们希望这些能力能够产生现实世界的影响,而不是仅仅用于玩游戏。”

Claude 3.7十四行诗的一个独特特征是它具备“扩展思维”的能力。就像DeepSeek的R1和Openai的O3-Mini一样,Claude 3.7十四行诗能够通过更多的计算能力和时间来解决更具挑战性的问题。

目前尚不清楚为了实现上述里程碑消耗了多少计算能力。此外,Anthropic尚未明确说明该模型完成游戏中最后一个体育馆领导者所需的时间。

可以肯定的是,Pokémon Red的测试不过是一种轻松展示新模型功能的方式。这表明新模型能够进行扩展推理,并可能需要更多时间(如果必要)来解决更复杂的问题。毕竟,研究人员经常通过让AI玩电子游戏(例如街头战斗机、国际象棋等)来评估其能力。

Claude 3.7十四行诗可以思考任意时长

显然,Claude 3.7十四行诗可以思考任意时长,只要用户愿意。它被称为“混合AI推理模型”,因为它既提供实时答案,也允许深度推理。是否启用其推理能力取决于用户的选择,这也导致Claude 3.7十四行诗在处理问题时花费的时间有所不同。

这里的目标似乎是通过简化选项来改善用户体验。如今,大多数聊天机器人都有一个模型选择器,这对普通用户来说可能会感到困惑。这些模型通常具有各种设置和功能。例如,Openai的Chatgpt也有多种产品。

实际上,山姆·奥特曼(Sam Altman)最近在其公司的更新路线图中表示,OpenAI的长期目标是统一Chatgpt的产品,以便用户可以在旅途中搜索解决方案。从这个意义上讲,Chatgpt也可能采用以代理为中心的方法。

Claude 3.7十四行诗比DeepSeek R1和O3-Mini更昂贵

Anthropic最近在周一推出了Claude 3.7十四行诗,面向开发人员和用户。然而,该模型的推理功能仅适用于那些选择高级聊天机器人计划的人。到目前为止,其价格为每百万输入令牌和每百万输出令牌15美元。这意味着用户可以以3美元的价格输入750,000个单词。因此,与Chatgpt的DeepSeek和O3-Mini相比,它比R1更昂贵。但需要注意的是,这两种模型不是混合型,而是非常严格的“推理模型”。

推理模型通常工作速度较慢,并需要更多时间来回答问题。一些示例包括Xai的Grok 3(Think)、Google的Gemini 2.0 Flash Thinking、DeepSeek的R1,当然还有Chatgpt的O3-Mini模型。

据Anthropic的产品和研究负责人Dianne Penn表示,该公司希望Claude能够自行决定考虑一个问题的时间长短,而无需用户明确选择设置。对此,Anthropic在一篇博客文章中提到,“类似于人类没有两个独立的大脑,可以立即回答简单问题或需要深思熟虑的问题。”

然而,与Xai的Grok 3不同,后者试图减少限制并鼓励开放讨论,Claude 3.7十四行诗会拒绝回答某些问题。事实上,本月早些时候,Grok 3的Beta版本甚至暗示了对唐纳德·特朗普(Donald Trump)的死亡罚款,称其为“可怕和不良的失败”。这一问题后来被纠正,正如XAI工程主管Igor Babuschkin所证实的那样。

人类基准测试了其最新的Claude 3.7十四行诗AI模型,使用PokémonRed
Grok 3 Beta建议唐纳德·特朗普(Donald Trump)应得的死亡罚款(来源:X)

然而,与之前的模型相比,它的拒绝频率较低,并且能够在良性提示和有害提示之间进行区分。根据Anthropic的说法,与先前的型号Claude 3.5十四行诗相比,不必要的拒绝减少了45%。

加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥4,667.49亿
2 欧易OKX欧易OKX ¥1,825.47亿
3 HTXHTX ¥315.31亿
4 CoinbaseCoinbase ¥136.12亿
5 芝麻开门芝麻开门 ¥961.90亿
6 BitgetBitget ¥1,313.57亿
7 BybitBybit ¥1,550.54亿
8 Crypto.comCrypto.com ¥226.07亿
9 BitfinexBitfinex ¥8.65亿
10 抹茶抹茶 ¥1,897.17亿