Anthropic 宣称其 Claude Sonnet 4.5 是“全球最佳编码模型”——我们对其进行了测试

3 小时前 11 全球
摘要
Anthropic 的 Claude Sonnet 4.5 目前在关键软件工程基准测试中得分为 77%,并且可以在复杂任务上自主工作超过 30 小时 。
币币情报道:

人类发布克劳德·桑奈特 4.5周一,谷歌宣布其“全球最佳编码模型”,并发布了一套新的开发工具。该公司表示,该模型可以专注于复杂、多步骤的编码任务超过 30 小时,并在推理和数学能力方面有所提升。

根据 Anthropic 的公告,该模型在 SWE-bench Verified(一项衡量真实世界软件编码能力的基准测试)上的得分为 77.2%。使用并行测试时计算时,该得分可提升至 82%。这使得新模型领先于 OpenAI 和谷歌的最佳产品,甚至超过了 Anthropic 的 Claude 4.1 Opus(根据该公司的命名方案,Haiku 为小型模型,Sonnet 为中型模型,而 Opus 是该系列中最重、性能最强的模型)。

 Anthropic 宣称其 Claude Sonnet 4.5 是“全球最佳编码模型”——我们对其进行了测试
图片:Anthropic

Claude Sonnet 4.5 在 OSWorld 基准测试中也处于领先地位,该基准测试旨在测试 AI 模型在现实世界计算机任务中的性能,得分为 61.4%。四个月前,Claude Sonnet 4 以 42.2% 的得分领先。该模型在推理和数学基准测试中表现出了更强大的能力,并且在金融、法律和医学等特定商业领域的专家中也表现出色。

我们试用了该模型,首次快速测试发现,它能够使用零样本提示生成我们常用的“AI vs Journalists”游戏,无需迭代、调整或重试。该模型生成功能代码的速度比 Claude 4.1 Opus 更快,同时保持了高质量的输出。它创建的应用程序展现出与 OpenAI 输出相当的视觉效果,这与 Claude 早期版本(通常界面不够精致)的界面有所不同。

Anthropic 发布了该模型的多项新功能。Claude Code 现在包含检查点,可以保存进度并允许用户回滚到之前的状态。该公司更新了终端界面,并发布了原生 VS Code 扩展。Claude API 增加了上下文编辑功能和内存工具,使代理能够运行更长时间并处理更高的复杂性。Claude 应用现在支持在对话中直接执行代码以及创建电子表格、幻灯片和文档的文件。

定价与 Claude Sonnet 4 保持不变,为每百万输入代币 3 美元,每百万输出代币 15 美元。所有 Claude 代码更新均面向所有用户开放,而 Claude 开发者平台更新(包括 Agent SDK)也面向所有开发者开放。

Anthropic 还称 Claude Sonnet 4.5 是“我们迄今为止最前沿的模型”,并表示该模型在减少谄媚、欺骗、权力欲和鼓励妄想等令人担忧的行为方面取得了显著进步。该公司还表示,在防御即时注入攻击方面取得了进展,而即时注入攻击被认为是代理和计算机使用能力用户面临的最严重风险之一。

当然,世界上最著名的人工智能即时工程师 Pliny 只花了几分钟就将其越狱并生成药物配方,就像这是世界上最正常的事情一样。

此次发布正值人工智能公司之间在编码能力方面的竞争日益激烈之际。OpenAI上个月发布了 GPT-5而谷歌的模型则在各种基准测试中竞争。这对一些人来说可能令人震惊预测市场,而就在几个小时前,人们还几乎完全确定 Gemini 将成为本月的最佳车型。

这可能是一场与时间的赛跑。目前,该模型尚未出现在排名,但 LM 竞技场宣布它已经可以进行排名了。根据互动次数,明天的结果可能会相当令人惊讶,因为 Claude 4.1 Opus 排名第二,而 Claude 4.5 Sonnet 则要好得多。

Anthropic 还发布了一项名为“与 Claude 一起想象”的临时研究预览,Max 订阅用户可试用五天。在实验中,Claude 无需预先设定功能或编写代码,即可即时生成软件,并在用户交互时响应并调整请求。

该公司表示:“你所看到的是克劳德实时创作的过程。” Anthropic 将其描述为模型与适当基础设施相结合所能实现的可能性的演示。

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥6,842.42亿
2 欧易OKX欧易OKX ¥2,373.46亿
3 HTXHTX ¥492.42亿
4 CoinbaseCoinbase ¥134.80亿
5 大门大门 ¥1,952.99亿
6 BitgetBitget ¥1,619.32亿
7 BybitBybit ¥2,028.85亿
8 双子星(Gemini)双子星(Gemini) ¥11.93亿
9 UpbitUpbit ¥82.98亿
10 Crypto.comCrypto.com ¥435.30亿