币币情报道:
一支由国际顶尖学术机构和科技公司研究人员组成的团队,在本周三发布了名为Openthinker-32b的AI模型。这一新模型在多个基准测试中表现出色,甚至在某些领域超越了中国领先的AI系统DeepSeek。
Openthinker-32b由开放思想(OpenThinker)财团开发,在Math500基准测试中取得了90.6%的准确率,超过了DeepSeek的89.4%。
此外,该模型在一般问题解决任务中也表现出色。例如,在GPQA钻石基准测试中,Openthinker-32b得分为61.6,高于DeepSeek的57.6。在LCBV2基准测试中,它达到了68.9分,展现了在多种测试场景中的强劲性能。
具体来说,Openthinker-32b在科学知识(GPQA-Diamond)和数学能力(AIME基准测试)方面均优于DeepSeek R1版本。尽管在编码任务上稍逊一筹(68.9分对比71.2分),但由于其开源特性,随着社区的改进,这些分数有望进一步提升。
这项成就的独特之处在于其训练效率:Openthinker仅需要114,000个训练示例即可达到上述结果,而DeepSeek则使用了80万个。
这个名为Openhouthts-114k的数据集包含每个问题的详细元数据,包括地面真相解决方案、代码问题的测试用例、启动器代码以及特定领域的信息。
其自定义策展框架验证了代码解决方案的测试用例,而AI法官负责数学验证。
研究团队表示,他们使用了配备八个H100 GPU的四个节点,在大约90小时内完成了训练。另一个包含137,000个未经验证样本的数据集,则在意大利的莱昂纳多超级计算机上进行了训练,仅用30小时便消耗了11,520 A100小时。
团队在文档中指出:“验证可以维持质量,同时扩大训练提示的多样性和规模。”研究表明,即使未验证的版本也表现良好,尽管它们与经过验证的模型的峰值结果存在一定差距。
该模型基于阿里巴巴的QWEN2.5-32B-INSTRUCT大语言模型构建,并支持一个适中的16,000个token上下文窗口,能够处理复杂的数学证明和冗长的编码问题。
Openthinker-32b的发布正值AI推理能力竞争加剧之际。2月12日,OpenAI宣布GPT-5之后的所有模型都将具备推理功能;一天后,埃隆·马斯克旗下的Xai推出了增强版Grok-3,声称是迄今为止最佳的推理模型;同一天,NOUS Research发布了另一种开源推理模型深色(Dark),基于Meta的Llama 3.1。
DeepSeek此前因与OpenAI的O1相当的表现而备受关注,但其低成本策略使其更具吸引力。DeepSeek R1可免费下载、使用和修改,并公开了部分训练技术。
然而,与DeepSeek不同的是,开放思想团队选择将其所有内容开源,包括训练数据。这种关键差异意味着开发者更容易理解Openthinker并复制其结果。
对于更广泛的AI社区而言,Openthinker的发布再次证明了无需依赖大量专有数据集即可构建具有竞争力的模型的可能性。此外,对于对使用中国模型持保留态度的西方开发者来说,这可能是一个更值得信赖的选择。
Openthinker-32b现已可在拥抱面(Hugging Face)平台下载。此外,还有一个较小且功能较弱的版本LitePemter模型,适用于低端设备。
开放思想团队汇集了来自美国多所大学的研究人员,包括斯坦福大学、伯克利大学和加州大学洛杉矶分校,以及德国尤利希超级计算中心的支持。此外,总部位于美国的丰田研究所和其他欧盟AI领域的参与者也为该项目提供了支持。
编辑:乔什·奎特纳(Josh Quittner) 和 塞巴斯蒂安·辛克莱(Sebastian Sinclair)