人类最新Claude 3.7十四行诗AI模型在Pokémon Red上的表现引人注目

2025-02-26 107 其它文章

摘要

人类的基准测试了其最新的AI模型Claude 3.7十四行诗，该模型在Nintendo的Game Game Boy上的经典游戏PokémonRed上。该模型的性能明显更好。

币币情报道：

人类对其最新的AI模型Claude 3.7十四行诗进行了基准测试，使用的是Nintendo Game Boy上的经典游戏Pokémon Red。相比之前的版本，该模型的性能显著提升，并成功完成了12个里程碑。

在最近的一篇博客文章中，人类详细介绍了这次测试的情况。公司发布了一张图表，显示了Y轴上的“里程碑”和X轴上的“动作数”。图表对比了3.7十四行诗与3.5十四行诗（新）、3.5十四行诗和3.0十四行诗的表现。其中，3.7十四行诗表现出色，执行了超过35K的动作，达到了12个里程碑。在游戏中，它成功击败了三位体育馆领导者并赢得了各自的徽章。相比之下，Anthropic早期的3.0十四行诗只能执行几千个动作，无法跨越游戏的初始阶段。

人类基准测试了其最新的Claude 3.7十四行诗AI模型，使用PokémonRed — Claude 3.7十四行诗演奏PokémonRed的结果（来源：拟人）

关于最近的游戏测试，Anthropic指出：“神奇宝贝是一种欣赏Claude 3.7 Sonnet功能的有趣方式，但我们希望这些能力能够产生现实世界的影响，而不是仅仅用于玩游戏。”

Claude 3.7十四行诗的一个独特特征是它具备“扩展思维”的能力。就像DeepSeek的R1和Openai的O3-Mini一样，Claude 3.7十四行诗能够通过更多的计算能力和时间来解决更具挑战性的问题。

目前尚不清楚为了实现上述里程碑消耗了多少计算能力。此外，Anthropic尚未明确说明该模型完成游戏中最后一个体育馆领导者所需的时间。

可以肯定的是，Pokémon Red的测试不过是一种轻松展示新模型功能的方式。这表明新模型能够进行扩展推理，并可能需要更多时间（如果必要）来解决更复杂的问题。毕竟，研究人员经常通过让AI玩电子游戏（例如街头战斗机、国际象棋等）来评估其能力。

Claude 3.7十四行诗可以思考任意时长

显然，Claude 3.7十四行诗可以思考任意时长，只要用户愿意。它被称为“混合AI推理模型”，因为它既提供实时答案，也允许深度推理。是否启用其推理能力取决于用户的选择，这也导致Claude 3.7十四行诗在处理问题时花费的时间有所不同。

这里的目标似乎是通过简化选项来改善用户体验。如今，大多数聊天机器人都有一个模型选择器，这对普通用户来说可能会感到困惑。这些模型通常具有各种设置和功能。例如，Openai的Chatgpt也有多种产品。

实际上，山姆·奥特曼（Sam Altman）最近在其公司的更新路线图中表示，OpenAI的长期目标是统一Chatgpt的产品，以便用户可以在旅途中搜索解决方案。从这个意义上讲，Chatgpt也可能采用以代理为中心的方法。

Claude 3.7十四行诗比DeepSeek R1和O3-Mini更昂贵

Anthropic最近在周一推出了Claude 3.7十四行诗，面向开发人员和用户。然而，该模型的推理功能仅适用于那些选择高级聊天机器人计划的人。到目前为止，其价格为每百万输入令牌和每百万输出令牌15美元。这意味着用户可以以3美元的价格输入750,000个单词。因此，与Chatgpt的DeepSeek和O3-Mini相比，它比R1更昂贵。但需要注意的是，这两种模型不是混合型，而是非常严格的“推理模型”。

推理模型通常工作速度较慢，并需要更多时间来回答问题。一些示例包括Xai的Grok 3（Think）、Google的Gemini 2.0 Flash Thinking、DeepSeek的R1，当然还有Chatgpt的O3-Mini模型。

据Anthropic的产品和研究负责人Dianne Penn表示，该公司希望Claude能够自行决定考虑一个问题的时间长短，而无需用户明确选择设置。对此，Anthropic在一篇博客文章中提到，“类似于人类没有两个独立的大脑，可以立即回答简单问题或需要深思熟虑的问题。”

然而，与Xai的Grok 3不同，后者试图减少限制并鼓励开放讨论，Claude 3.7十四行诗会拒绝回答某些问题。事实上，本月早些时候，Grok 3的Beta版本甚至暗示了对唐纳德·特朗普（Donald Trump）的死亡罚款，称其为“可怕和不良的失败”。这一问题后来被纠正，正如XAI工程主管Igor Babuschkin所证实的那样。

然而，与之前的模型相比，它的拒绝频率较低，并且能够在良性提示和有害提示之间进行区分。根据Anthropic的说法，与先前的型号Claude 3.5十四行诗相比，不必要的拒绝减少了45％。

加密大都会学院：想在2025年养活您的钱吗？在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置

币币情登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

上一篇：金色DeFi日报 | DeFi用户地址量达317万为年初时的2.7倍

下一篇：详解：数字人民币在公共交通领域的发展和思考

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥8,488.17亿
2	欧易OKX	¥3,211.53亿
3	HTX	¥572.71亿
4	Coinbase	¥201.46亿
5	芝麻开门	¥2,432.45亿
6	Bitget	¥2,561.00亿
7	Bybit	¥2,589.90亿
8	双子星（Gemini）	¥26.46亿
9	Upbit	¥174.67亿
10	Crypto.com	¥442.37亿

排名	币种	成交额
1	泰达币	¥3,584.55亿
2	wETH	¥2,066.40亿
3	以太坊	¥1,466.51亿
4	比特币	¥1,150.72亿
5	USD Coin	¥626.16亿
6	瑞波币	¥570.51亿
7	Solana	¥443.27亿
8	First Digital USD	¥254.27亿
9	狗狗币	¥181.42亿
10	莱特币	¥122.86亿