斯坦福大学与华盛顿大学研究人员开发50美元开源ChatGPT O1替代模型
根据周一发布的一份研究报告,斯坦福大学和华盛顿大学的人工智能研究人员完成了一项令人瞩目的成就——他们开发了一种名为S1的AI模型,其云计算成本低于50美元。
据称,S1模型在数学和编码测试中的基准表现,可与顶级推理模型相媲美,包括OpenAI的O1和DeepSeek的R1。更重要的是,整个项目已在GitHub上开源,代码、数据及所有相关内容均可免费获取。
研究团队并未从头构建新模型,而是选择了现有模型进行优化。通过一种称为蒸馏的技术,他们对模型进行了微调。根据研究,他们从Google的Gemini 2.0 Flash思维实验模型中提取了推理能力。
团队通过学习Gemini的答案,训练S1模仿其解决问题的技术。斯坦福大学研究员尼克拉斯·穆尼基诺夫(Niklas Muennighoff)表示:“我们的目标是追求简单。”
小数据集,大成果
对于希望降低成本的人工智能团队来说,蒸馏技术已成为首选工具。伯克利研究人员上个月开发的类似AI模型的训练成本为450美元,但按照行业标准,这已经相当便宜。然而,斯坦福大学和华盛顿大学的研究人员更进一步,通过使用更小的数据集和简化技术,将模型训练成本降至50美元。
研究人员仅挑选了1000个问题,每个问题都与Google Gemini 2.0的详细答案和逐步推理配对。该数据集为S1提供了高级推理所需的所有知识。根据团队的论文,该模型学会了如何“思考”问题。
监督微调(SFT)是这一过程的关键。研究人员没有采用需要大量数据和计算资源的强化学习方法,而是选择了SFT,这种方法直接训练AI以模拟数据集中发现的行为。它不仅更便宜、更快,而且在本案例中效果显著。
基础模型来自阿里巴巴旗下的AI实验室Qwen。其现成模型可以免费下载,使该项目更具可访问性。团队仅用16个NVIDIA H100 GPU,在不到30分钟的时间内完成了S1的训练。穆尼霍夫补充道:“我们今天租用必要计算资源的成本约为20美元。”
“等待”命令提升S1的准确性
研究人员还采用了巧妙的技巧来提高S1的推理能力:他们在解决问题的过程中添加了“等待”一词。通过让模型暂停并仔细检查其工作,他们显著提升了准确性。研究论文详细说明了这一调整如何为S1争取更多时间,在提交答案之前考虑更优解。
OpenAI对此密切关注。此前,他们曾指责DeepSeek通过不当方式从其API中收集数据以开发AI竞争对手。而S1展示了低成本复制高端模型的能力,这对OpenAI等大公司而言无疑是一个威胁。AI模型的商品化可能对其盈利模式造成冲击。
与此同时,科技行业正面临其他挑战。周二,埃隆·马斯克(Elon Musk)的法律团队在奥克兰联邦法院起诉OpenAI。作为OpenAI的早期投资者,马斯克声称该公司背离了其非营利使命,并背叛了最初的目标。
他提起诉讼,试图阻止OpenAI完全转向营利性业务。马斯克的律师马克·托伯夫(Marc Toberoff)周五向法庭表示,马斯克在2015年至2018年间向OpenAI投资了4500万美元,因为他相信这家公司始终会将公共利益置于利润之上。
法官伊冯·冈萨雷斯·罗杰斯(Yvonne Gonzalez Rogers)对此表示质疑,并指出马斯克为何会在没有书面合同的情况下投入如此巨额资金。她调侃道:“这是基于握手的很大一笔钱。”托伯夫随后解释称,当时马斯克与OpenAI首席执行官山姆·阿尔特曼(Sam Altman)关系密切,一切基于信任。
然而,案件尚未结束。法官对OpenAI与微软的密切关系表示担忧。OpenAI董事会中有两名关键人物——LinkedIn联合创始人里德·霍夫曼(Reid Hoffman)和微软高管迪安娜·坦普顿(Deanna Templeton)。坦普顿曾在2023年短暂被罢免后重新加入董事会,但后来因反垄断问题被移除。
马斯克希望通过自己的AI公司X.ai阻止OpenAI的计划,并可能获得更多控制权,因此将其列为原告。OpenAI则认为马斯克的要求将削弱其业务,并称其主张“牵强附会”。
加密大都会学院:如何撰写Web3简历以吸引面试机会 - 免费备忘单
- 1加密市场乱象:CLS Global操纵案与做市商掠夺性行为的监管启示
- 2川怼怼 到底能不能开除鲍老板?
- 34 Alpha宏观周报:软硬撕裂、关税反复:衰退前夜?市场困局何在?
- 4Web3 “过气”的超级明星协议 如今都怎么样了?
- 5特朗普猛烈抨击鲍威尔引发市场震荡:美元下挫,比特币突破8.7万美元
- 624H热门币种与要闻 | 币安Alpha上线评估TGE及空投参与资格的积分系统;币安拟为加密资产管理者提供与传统金融交易类似的“基金账户”(4月25日)
- 7黄金疯涨后,白银会是下一个投资焦点吗?
- 8空投周报 | 币安即将空投EPT代币,Walrus计划向SUI生态游戏掌机持有者发放空投(4.14-4.20)
- 9AI Agent周报 | auto.fun平台上线,原生代币为ai16z;Virtuals推出新Launchpad平台Genesis(4.14-4.20)