Openai通过早期的O3 Mini发射与DeepSeek AI进行反击 - 在这里进行比较

2025-02-01 100 其它文章
摘要
DeepSeek的超高效R1型号引发了万亿美元的技术抛售并重塑了AI景观,因此Openai的O3-Mini发行了 。
币币情报道:

周五发行O3 Mini,Openai急于捍卫其市场位置,这是对中国初创公司的直接回应DeepSeek的R1模型这通过以计算成本的一小部分与顶级性能匹配,从而使Shockwaves通过AI行业。

Openai在一家官方中说:“我们正在发布推理系列中最新,最具成本效益的模型Openai O3-Mini,今天在Chatgpt和API中都可以使用。”博客文章。 “这款强大而快速的模型于2024年12月预览,在保持低成本和降低Openai O1-Mini的潜伏期的同时,提高了小型模型可以实现的目标。”

Openai还首次免费提供了推理功能,同时为付款50至150的客户每日消息限制三倍,以提高新的推理模型的使用。

与GPT-4O和GPT模型家族不同,AI模型的“ O”家族专注于推理任务。它们的创造力较小,但是已经嵌入了思想推理链,使它们更有能力解决复杂的问题,回溯错误的分析以及构建更好的结构代码。

在最高级别,OpenAI有两个主要的AI模型家族:生成的预训练的变压器(GPT)和“ Omni”(O)。

  • GPT就像家庭的艺术家:右脑类型,非常适合角色扮演,对话,创意写作,总结,解释,集思广益,聊天等。
  • o是家庭的书呆子。它很难讲故事,但擅长编码,求解数学方程,分析复杂问题,逐步计划其推理过程,比较研究论文等。

新的O3 Mini有三个版本:低,中或高。这些子类别将为用户提供更好的答案,以换取更多的“推理”(对于需要付款的开发人员来说,这更昂贵)。

在一般知识和多语言思想链中,旨在效率的Openai O3 Mini比Openai O1-Mini要差,但是在编码或事实等其他任务上,它在其他任务上得分更好。在每个基准测试中,所有其他型号(O3-Mini培养基和O3 Mini High)的确都会击败OpenAI O1-Mini。

 Openai通过早期的O3 Mini发射与DeepSeek AI进行反击 - 在这里进行比较
图片:否

DeepSeek的突破性比OpenAI的旗舰模型提供了更好的成绩,同时仅使用计算能力的一小部分,引发了大规模的技术抛售,该抛售从美国市场中抹去了近1万亿美元。仅NVIDIA就会削减6000亿美元的市场价值当投资者质疑未来对其昂贵的AI芯片的需求。

效率差距源于DeepSeek的新颖模型架构方法。

尽管美国公司专注于在AI开发中投入更多的计算能力,但DeepSeek的团队找到了简化建模如何处理信息的方法,从而使其更有效。当中国科技巨头阿里巴巴(Alibaba)发布Qwen2.5 Max时,竞争压力加剧了,这是一种比用作其基础的DeepSeek更有能力的模型,为可能是中国AI创新的新浪潮打开了道路。

Openai O3 Mini试图再次增加该差距。新型号的运行速度比其前身快24%,并且在关键基准测试中匹配或击败较旧的型号,同时运行成本较小。

它的定价也更具竞争力。 Openai O3-Mini的利率 - 每百万美元的投入令牌为0.55美元,每百万美元产量令牌4.40美元都高于DeepSeek的R1价格但是,相同卷的$ 0.14和2.19美元,它们减少了Openai和DeepSeek之间的差距,并且与运行Openai O1的价格相比,这是一个重大削减。

 Openai通过早期的O3 Mini发射与DeepSeek AI进行反击 - 在这里进行比较
图片:否

这可能是成功的关键。 Openai O3-Mini是封闭的,与DeepSeek R1不同,它可以免费使用,但是对于那些愿意支付托管服务器使用费用的人,上诉将根据预期的使用而增加。

Openai O3 Mini-Medium在数学问题的AIME基准上得分为79.6。 DeepSeek R1的得分为79.8,这一得分仅被家族中最强大的模型击败,OpenAi Mini-O3高分,得分为87.3分。

在其他基准测试中可以看到相同的模式:衡量不同科学学科的熟练度的GPQA标记为71.5,对于deepSeek R1,O3-Mini Low的GPQA标记为70.6,而O3-Mini High的GPQA标记为71.6。 R1处于96.3级百分位数CodeForces这是用于编码任务的基准,而O3-Mini低位于第93%,而O3-Mini高则位于第97个百分位数。

因此存在差异,但是就基准测试而言,它们可能会忽略不计,具体取决于为执行任务选择的模型。

测试Openai O3-Mini针对DeepSeek R1

我们尝试使用一些任务,以查看其对DeepSeek R1的执行方式。

第一个任务是一款间谍游戏,以测试多步推理的表现。我们从大台上数据集中选择相同的示例Girub我们用来评估DeepSeek R1。 (全文可用这里并涉及到一个偏僻的下雪地点的学校旅行,学生和老师面临一系列奇怪的失踪。该模型必须找出缠扰者是谁。)

Openai O3-Mini表现不佳,并在故事中得出了错误的结论。根据测试提供的答案,缠扰者的名字是狮子座。 DeepSeek R1做对了,而Openai O3 Mini弄错了,说缠扰者的名字叫Eric。 (有趣的事实,我们无法共享与对话的链接,因为Openai将其标记为不安全)。

该模型擅长于与数学不涉及的逻辑语言相关的任务。例如,我们要求模型写出以特定单词结尾的五个句子,并在提供最终答案之前能够理解任务,评估结果。它考虑了四秒钟的答复,纠正了一个错误的答案,并提供了完全正确的答复。

它也非常擅长数学,证明能够解决某些基准测试中非常困难的问题。 Openai O3-Mini仅在33秒内完成了Goodseek R1 275秒的相同复杂问题。

这是一个很好的努力,Openai。您的deepseek。

编辑安德鲁·海沃德(Andrew Hayward)

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥9,986.26亿
2 欧易OKX欧易OKX ¥4,166.13亿
3 HTXHTX ¥751.38亿
4 CoinbaseCoinbase ¥186.32亿
5 芝麻开门芝麻开门 ¥2,690.73亿
6 BitgetBitget ¥2,874.09亿
7 BybitBybit ¥3,394.74亿
8 Crypto.comCrypto.com ¥434.81亿
9 BitfinexBitfinex ¥25.09亿
10 抹茶抹茶 ¥2,550.61亿