Nvidia Blackwell芯片显著提升AI训练效率,27分钟完成超大规模模型训练

1天前 20 技术
摘要
Nvidia 的新款 Blackwell 芯片仅用 27 分钟就训练完了 Meta 的大型 Llama 3.1 模型 。
币币情报道:

Nvidia 的新款 Blackwell 芯片正在彻底改变人工智能系统的训练速度。

非营利组织 MLCommons 周三发布的最新一轮基准测试结果显示,Nvidia 的 Blackwell 架构在人工智能芯片领域创下了新的记录。

在使用 Meta 开源的 Llama 3.1 405B 模型(其最大、最复杂的 AI 模型之一)进行测试时,Blackwell 芯片仅需27分钟即可完成训练。这一过程仅使用了 2,496 个 Blackwell GPU,比 Nvidia 上一代 Hopper 芯片所需的时间缩短了一个数量级。

相比之下,过去需要三倍以上的 Hopper GPU 才能达到同等性能。Blackwell 芯片不仅速度提高了两倍多,还在收敛效率上实现了质的飞跃。对于那些需要训练万亿参数规模模型的组织来说,这种性能提升将大大节省时间和成本。

这些结果被认为是 MLCommons 首次针对极端规模模型训练的基准测试,真实地展示了芯片如何应对最苛刻的人工智能工作负载。

CoreWeave 和 Nvidia 推动更智能的 AI 扩展

这一突破不仅是 Nvidia 的胜利,也体现了参与测试的云基础设施公司 CoreWeave 的技术实力。CoreWeave 首席产品官 Chetan Kapoor 在新闻发布会上指出,行业正朝着模块化计算的方向发展,摆脱由数万个 GPU 组成的大型同质化模块。

公司不再构建单一庞大的单片计算系统,而是通过更小、相互连接的子集来高效管理大规模模型训练,从而实现更好的扩展性。

卡普尔表示,借助这种技术,开发人员可以进一步扩大模型规模,或显著缩短训练超大模型所需的时间。

随着人工智能模型的规模和复杂性持续膨胀,转向硬件的模块化部署已成为必然趋势。

Blackwell 让 Nvidia 在 AI 模型训练领域占据领先地位

尽管最近的关注点已转向人工智能推理(例如 ChatGPT 等模型实时回答用户问题的能力),但训练仍然是人工智能开发的核心环节。

训练赋予这些模型智能,使其能够理解语言、解决复杂问题,甚至创作出类似人类的文本内容。然而,训练对计算资源的要求极高,通常需要数千个高性能芯片长时间运行,耗时可能长达数天甚至数月。

而 Nvidia 的 Blackwell 架构通过减少所需芯片数量并大幅缩短训练时间,在速度和效率至上的市场中占据了更有利的地位。

以 Meta 的 Llama 3.1 405B 模型为例,这种拥有数万亿参数的模型过去必须依赖庞大的 GPU 集群运行,既昂贵又耗能。如今,Blackwell 芯片显著降低了这一门槛。

在医疗保健、金融、教育以及自动驾驶汽车等领域对更大、更强人工智能模型需求日益增长的背景下,这种性能提升无疑具有重要意义。

与此同时,这也向英伟达的竞争对手发出了明确信号。像 AMD 和英特尔这样的公司正面临更大压力,需要加快研发步伐以追赶 Nvidia 的技术优势。

尽管 AMD 也提交了 MLCommons 基准测试结果,但并未展示类似 Llama 3.1 405B 这样大规模模型的表现。Nvidia 是唯一一家在高端基准测试中取得卓越成绩的公司,再次证明了其硬件的领先性能。

Cryptopolitan Academy:想在 2025 年实现财富增值吗?欢迎参加我们即将推出的网络课程,学习如何利用 DeFi 实现增值。保存您的位置

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥8,567.45亿
2 欧易OKX欧易OKX ¥3,521.30亿
3 HTXHTX ¥821.35亿
4 CoinbaseCoinbase ¥202.87亿
5 芝麻开门芝麻开门 ¥2,218.40亿
6 BitgetBitget ¥3,074.89亿
7 BybitBybit ¥3,004.92亿
8 Crypto.comCrypto.com ¥369.93亿
9 BitfinexBitfinex ¥46.35亿
10 抹茶抹茶 ¥2,244.92亿