全世界最大的超算 Frontier 使用 3072 块 AMD GPU 训完超万亿参数 LLM

来源: 巴比特477天前
据新智元 1 月 13 日报道,用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。 位于美国橡树岭国家实验室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888个MI250X GPU和9472个Epyc7A53CPU。最近,研究人员只使用了其中8%左右的GPU,就训练了一个GPT-3.5规模的模型。研究人员成功地使用ROCM软件平台在AMD硬件上成功地突破了分布式训练模型的很多难点,建立了使用ROCM平台在AMD硬件上为大模型实现最先进的分布式训练算法和框架。 成功地在非英伟达和非CUDA平台上为高效训练LLM提供了可行的技术框架。 训练完成后,研究人员将在Frontier上训练大模型的经验的总结成了一篇论文,详细描述了期间遇到的挑战以及克服的困难。
利好利好
0
利空利空
0
交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥4,340.97亿
2 欧易OKX欧易OKX ¥1,745.35亿
3 HTXHTX ¥305.64亿
4 CoinbaseCoinbase ¥88.81亿
5 芝麻开门芝麻开门 ¥932.02亿
6 BitgetBitget ¥1,393.44亿
7 BybitBybit ¥1,452.42亿
8 Crypto.comCrypto.com ¥240.32亿
9 BitfinexBitfinex ¥67.48亿
10 抹茶抹茶 ¥2,330.28亿