DeepSeek v3.1 悄然打破 OpenAI 开源回归的神话
8 月 5 日,OpenAI 宣布开源回归,推出了 GPT-OSS-20B 模型,引发了业界轰动。这款模型被定位为“民主化的人工智能”,能够在消费级硬件上运行,具备强大的推理和代理能力。
然而,仅仅两周后,一家名为 DeepSeek AI 的中国初创公司低调发布了 DeepSeek v3.1。没有新闻稿、没有媒体炒作,仅通过一条推文发布了一个采用混合思维架构的模型,并附带了下载链接。
谁需要开源?
开源大型语言模型(LLM)既有优点也有缺点。其优势在于开发者可以自由检查、修改和微调模型,从而开发出针对特定领域(如医学或法律)优化的版本,或者将其精简到可以在笔记本电脑而非数据中心上运行。此外,开源社区推动了模型的持续改进,有时甚至超越原始模型。
然而,开源模型也存在弊端:它们通常在发布时存在一些缺陷,安全控制较弱,且计算能力和完善性无法与封闭模型(如 GPT-5 或 Claude)相媲美。简而言之,开源模型以一致性和防护为代价,提供了自由和灵活性。
从硬件需求来看,即使是像 OpenAI 的 200 亿参数模型这样的小型开源模型,通常也需要高端 GPU 或经过优化的量化版本才能在消费级硬件上运行。
尽管如此,开源模型的优势在于本地控制:数据不会离开用户的设备,也没有 API 成本或速率限制。但大多数用户仍需依赖高性能设备或云计算资源才能获得理想性能。
编码测试
我们对两款模型进行了代码生成测试。结果表明,DeepSeek v3.1 在首次尝试中生成了功能齐全、无错误的代码,而 OpenAI 的 gpt-oss-20b 则未能完成任务,甚至在高推理模式下超时崩溃。
您可以查看我们的 Github 仓库 和 Itch.io 网站 获取更多细节。
创意写作对比
在创意写作测试中,DeepSeek 表现出了更高的叙事质量。例如,在编写一篇关于未来历史学家穿越到公元 1000 年的故事时,DeepSeek 的描述更加细腻,逻辑更连贯,而 OpenAI 的模型则显得哲学化且情节薄弱。
您可以通过我们的 Github 仓库 阅读完整故事。
可定制性与非数学推理
在可定制性方面,OpenAI 的模型由于发布时间较长,已吸引了更多社区支持,推出了多个领域的专用版本。而 DeepSeek 的量化版本虽能在低端硬件上运行,但尚未形成类似生态。
在非数学推理测试中,DeepSeek v3.1 再次胜出,成功破解悬疑故事中的谜题,而 OpenAI 的模型则陷入无限循环。
敏感话题处理
在处理敏感话题时,DeepSeek 展现了更高情商。例如,面对成瘾问题,它不仅提供了同情心的回应,还提出了实际解决方案,包括提供支持热线电话。
相比之下,OpenAI 的模型仅简单拒绝回答,缺乏进一步分析。
最终判决
DeepSeek v3.1 凭借其卓越的执行力和多功能性,代表了开源 AI 的巨大潜力。虽然 OpenAI 的 gpt-oss-20b 仍有其价值,特别是在特定领域应用中,但 DeepSeek 已经证明了其开箱即用的能力。