研究人员以不到50美元创建可与OpenAI o1模型相媲美的s1模型
来源: 星球日报125天前
根据上周五发布的一篇新研究论文,斯坦福大学和华盛顿大学的人工智能研究人员能够以不到 50 美元的云计算积分训练一个人工智能“推理”模型。 在衡量数学和编码能力的测试中,被称为 s1 的模型表现类似于尖端推理模型,例如 OpenAI 的 o1 和 DeepSeek 的 r1。s1 模型以及用于训练它的数据和代码可在 GitHub 上找到。 s1 背后的团队表示,他们通过提炼(distillation)创建了人工智能模型,这是一种通过训练另一个人工智能模型的答案来提取“推理”能力的过程。研究人员表示,s1 是从谷歌的推理模型之一 Gemini 2.0 Flash Thinking Experimental 中提炼出来的。提炼是伯克利研究人员上个月以约 450 美元的价格创建人工智能推理模型所采用的相同方法。 s1 背后的研究人员正在寻找实现强大推理性能和“测试时间扩展”的最简单方法,或者让 AI 模型在回答问题之前进行更多思考。这些是 OpenAI 的 o1 中的一些突破,其他 AI 实验室试图通过各种技术复制这些突破。s1 论文提出,可以使用一种称为监督微调(SFT)的过程,利用相对较小的数据集提炼推理模型,在此过程中,明确指示 AI 模型模仿数据集中的某些行为。SFT 往往比 DeepSeek 用于训练其对 OpenAI 的 o1、R1 的答案的大规模强化学习方法更便宜。 s1 基于阿里巴巴旗下中国 AI 实验室 Qwen 的一个小型现成 AI 模型,可免费下载。为了训练 s1,研究人员创建了一个仅包含 1,000 个精心策划的问题的数据集,并附上这些问题的答案以及 Google 的 Gemini 2.0 Flash Thinking Experimental 中每个答案背后的“思考”过程。 据研究人员称,在使用 16 个 Nvidia H100 GPU 不到 30 分钟的时间内训练 s1 后,s1 在某些 AI 基准测试中取得了强劲的表现。参与该项目的斯坦福大学研究员 Niklas Muennighoff 称,他现在就可以以大约 20 美元的价格租用必要的计算机。(TechCrunch)
热门新闻
- 1每日投行与机构观点汇总(2025年6月6日)
- 2新加坡Web3监管风暴:数字代币服务无牌照寸步难行
- 3“嘴撸”三巨头Kaito、Cookie、Galxe参与全攻略
- 4以太坊基金会发布新财政政策:聚焦可持续发展与DeFi生态建设
- 5新加坡全面收紧Web3监管,数字代币服务进入严管时代
- 6Binance控制了CEXs上59%的稳定币储备,数据揭示行业主导地位
- 7新加坡全面收紧加密货币监管,币圈从业者何去何从?
- 8稳定币市场新趋势:2400亿美元供应量背后的生态变迁
- 9特朗普“美丽大法案”引发争议:国会预算办公室称将增加2.4万亿美元债务
- 10每日投行与机构观点汇总(2025年6月6日)
- 11新加坡Web3监管风暴:数字代币服务无牌照寸步难行
- 12“嘴撸”三巨头Kaito、Cookie、Galxe参与全攻略
- 13以太坊基金会发布新财政政策:聚焦可持续发展与DeFi生态建设
- 14新加坡全面收紧Web3监管,数字代币服务进入严管时代
- 15Binance控制了CEXs上59%的稳定币储备,数据揭示行业主导地位
- 16新加坡全面收紧加密货币监管,币圈从业者何去何从?
- 17稳定币市场新趋势:2400亿美元供应量背后的生态变迁
- 18特朗普“美丽大法案”引发争议:国会预算办公室称将增加2.4万亿美元债务
交易平台最新公告查看更多>