重磅!“AI界拼多多”再发力,国产大模型DeepSeek-V3开源后刷屏,总训练成本557万美元,性能比肩GPT-4o
中国大模型创业公司 DeepSeek 重磅发布了一个全新的超大规模模型——DeepSeek-V3。这个新模型拥有 6710 亿个参数,采用 MOE(混合专家)架构,能根据任务需求激活特定参数,每处理一个词元激活 370 亿参数,从而实现高效又准确的任务处理。DeepSeek 对 DeepSeek-V3 模型进行了多项性能测试。在知识领域,基于教育类基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 表现优异,分别取得了 88.5、75.9 和 59.1 的高分,超越了所有其他开源模型,并在性能上接近封闭模型如 GPT-4o 和 Claude-Sonnet-3.5。这意味着 DeepSeek-V3 在这一领域大幅缩小了开源模型与封闭模型之间的差距。
在定价方面,回顾今年 5 月,DeepSeek 发布第二代 MoE 大模型 DeepSeek-V2 时,以与 GPT-4 Turbo 媲美的性能和仅为 GPT-4 百分之一的价格震撼业界,这也让 DeepSeek 收获了“AI 界拼多多”、“大模型价格屠夫”等称号。这一次,DeepSeek 也没有让众人失望,DeepSeek-V3 模型 API 服务定价为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。同时,DeepSeek 宣布为新模型设置长达 45 天的优惠价格体验期:即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务价格为每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元。

