人类最新Claude 3.7十四行诗AI模型在Pokémon Red上的表现引人注目
人类对其最新的AI模型Claude 3.7十四行诗进行了基准测试,使用的是Nintendo Game Boy上的经典游戏Pokémon Red。相比之前的版本,该模型的性能显著提升,并成功完成了12个里程碑。
在最近的一篇博客文章中,人类详细介绍了这次测试的情况。公司发布了一张图表,显示了Y轴上的“里程碑”和X轴上的“动作数”。图表对比了3.7十四行诗与3.5十四行诗(新)、3.5十四行诗和3.0十四行诗的表现。其中,3.7十四行诗表现出色,执行了超过35K的动作,达到了12个里程碑。在游戏中,它成功击败了三位体育馆领导者并赢得了各自的徽章。相比之下,Anthropic早期的3.0十四行诗只能执行几千个动作,无法跨越游戏的初始阶段。

关于最近的游戏测试,Anthropic指出:“神奇宝贝是一种欣赏Claude 3.7 Sonnet功能的有趣方式,但我们希望这些能力能够产生现实世界的影响,而不是仅仅用于玩游戏。”
Claude 3.7十四行诗的一个独特特征是它具备“扩展思维”的能力。就像DeepSeek的R1和Openai的O3-Mini一样,Claude 3.7十四行诗能够通过更多的计算能力和时间来解决更具挑战性的问题。
目前尚不清楚为了实现上述里程碑消耗了多少计算能力。此外,Anthropic尚未明确说明该模型完成游戏中最后一个体育馆领导者所需的时间。
可以肯定的是,Pokémon Red的测试不过是一种轻松展示新模型功能的方式。这表明新模型能够进行扩展推理,并可能需要更多时间(如果必要)来解决更复杂的问题。毕竟,研究人员经常通过让AI玩电子游戏(例如街头战斗机、国际象棋等)来评估其能力。
Claude 3.7十四行诗可以思考任意时长
显然,Claude 3.7十四行诗可以思考任意时长,只要用户愿意。它被称为“混合AI推理模型”,因为它既提供实时答案,也允许深度推理。是否启用其推理能力取决于用户的选择,这也导致Claude 3.7十四行诗在处理问题时花费的时间有所不同。
这里的目标似乎是通过简化选项来改善用户体验。如今,大多数聊天机器人都有一个模型选择器,这对普通用户来说可能会感到困惑。这些模型通常具有各种设置和功能。例如,Openai的Chatgpt也有多种产品。
实际上,山姆·奥特曼(Sam Altman)最近在其公司的更新路线图中表示,OpenAI的长期目标是统一Chatgpt的产品,以便用户可以在旅途中搜索解决方案。从这个意义上讲,Chatgpt也可能采用以代理为中心的方法。
Claude 3.7十四行诗比DeepSeek R1和O3-Mini更昂贵
Anthropic最近在周一推出了Claude 3.7十四行诗,面向开发人员和用户。然而,该模型的推理功能仅适用于那些选择高级聊天机器人计划的人。到目前为止,其价格为每百万输入令牌和每百万输出令牌15美元。这意味着用户可以以3美元的价格输入750,000个单词。因此,与Chatgpt的DeepSeek和O3-Mini相比,它比R1更昂贵。但需要注意的是,这两种模型不是混合型,而是非常严格的“推理模型”。
推理模型通常工作速度较慢,并需要更多时间来回答问题。一些示例包括Xai的Grok 3(Think)、Google的Gemini 2.0 Flash Thinking、DeepSeek的R1,当然还有Chatgpt的O3-Mini模型。
据Anthropic的产品和研究负责人Dianne Penn表示,该公司希望Claude能够自行决定考虑一个问题的时间长短,而无需用户明确选择设置。对此,Anthropic在一篇博客文章中提到,“类似于人类没有两个独立的大脑,可以立即回答简单问题或需要深思熟虑的问题。”
然而,与Xai的Grok 3不同,后者试图减少限制并鼓励开放讨论,Claude 3.7十四行诗会拒绝回答某些问题。事实上,本月早些时候,Grok 3的Beta版本甚至暗示了对唐纳德·特朗普(Donald Trump)的死亡罚款,称其为“可怕和不良的失败”。这一问题后来被纠正,正如XAI工程主管Igor Babuschkin所证实的那样。

然而,与之前的模型相比,它的拒绝频率较低,并且能够在良性提示和有害提示之间进行区分。根据Anthropic的说法,与先前的型号Claude 3.5十四行诗相比,不必要的拒绝减少了45%。
加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置
- 1洛杉矶暴乱升级:对美国经济及加密市场的影响分析
- 2比特币价格分析:2025年6月16日BTC能否守住关键支撑位104,000美元?
- 3洛杉矶骚乱升级:对美国经济与加密市场的影响分析
- 42025年6月17日以太坊(ETH)价格走势分析与预测
- 5美国司法部破获3690万美元加密货币诈骗案 五名男子认罪
- 6Bitwise:Circle的IPO如何影响加密投资者的资产配置策略
- 724小时币圈动态与全球要闻 | 特朗普关税政策暂获维持,CZ重登华人首富宝座
- 83500美元拍下一个二维码?QRcoin链上拍卖模式引发社区热议
- 9特朗普家族支持的World Liberty Financial通过750万美元Aave贷款推动DeFi业务扩展