Galaxy Research:去中心化人工智能训练架构、机遇与挑战
作者:Lucas Tcheyan、Arjun Yenamandra,来源:Galaxy Research,编译:金色财经
简介
去年,Galaxy Research 发表了首篇关于加密货币与人工智能交叉领域的文章。文章探讨了加密货币无需信任和无需许可的基础设施如何成为人工智能创新的基础。其中包括:为应对图形处理器 (GPU) 短缺而兴起的处理能力(或称计算)去中心化市场的出现;零知识机器学习 (zkML) 早期在可验证的链上推理方面的应用;以及自主人工智能代理简化复杂交互并使用加密货币作为原生交换媒介的潜力。
当时,许多此类举措尚处于萌芽阶段,只是一些引人注目的概念验证,暗示着其相比中心化方案具有实际优势,但规模尚未扩大到足以重塑人工智能格局。然而,自那以后的一年里,去中心化人工智能在实现方面取得了有意义的进展。为了抓住这一势头并发掘最具前景的进展,Galaxy Research 将在未来一年发布一系列文章,深入探讨加密+人工智能前沿领域的特定垂直领域。
本文首发于去中心化训练,重点介绍致力于在全球范围内实现基础模型无许可训练的项目。这些项目的动机是双重的。从实践角度来看,他们认识到全球大量闲置的 GPU 可以用于模型训练,从而为世界各地的 AI 工程师提供原本难以承受的训练流程,并使开源 AI 开发成为现实。从理念角度来看,这些团队的动机在于领先的中心化 AI 实验室对我们这个时代最重要的技术革命之一的严格控制,以及创造开放替代方案的迫切需求。
更广泛地讲,对于加密领域而言,实现基础模型的去中心化训练和后续训练,是构建完全链上AI堆栈的关键一步,该堆栈无需许可,且在每一层均可访问。GPU 市场可以接入模型,提供训练和推理所需的硬件。zkML 提供商可用于验证模型输出并保护隐私。AI 代理可以作为可组合的构建块,将模型、数据源和协议组合成更高阶的应用程序。
本报告探讨了去中心化人工智能协议的底层架构、其旨在解决的技术问题以及去中心化训练的前景。加密货币与人工智能的底层前提与一年前相比保持不变。加密货币为人工智能提供了一个无需许可、无需信任且可组合的价值转移结算层。现在的挑战是证明去中心化方法能够比中心化方法带来实际优势。
模型训练基础
在深入了解去中心化培训的最新进展之前,有必要先对大型语言模型(LLM)及其底层架构有一个基本的了解。这将有助于读者理解这些项目的工作原理,以及它们试图解决的主要问题。
Transformer
大型语言模型 (LLM)(例如ChatGPT)由一种称为Transformer的架构提供支持。Transformer 最早在 2017 年谷歌的一篇题为《注意力就是你所需要的一切》的论文中提出,是人工智能开发领域最重要的创新之一。简而言之,Transformer 会提取数据(称为token),并应用各种机制来学习这些 token 之间的关系。
词条之间的关系使用权重进行建模。权重可以被认为是构成模型的数百万到数万亿个旋钮,它们不断被调整,直到能够一致地预测序列中的下一个词条。训练完成后,模型基本上可以捕捉人类语言背后的模式和含义。
Transformer培训的关键组成部分包括:
-
前向传递:在训练过程的第一步,Transformer 会从更大的数据集中输入一批 token。基于这些输入,模型会尝试预测下一个 token 应该是什么。在训练开始时,模型的权重是随机的。
-
损失计算:前向传播预测随后会用于计算损失分数,该分数衡量这些预测与输入模型的原始数据批次中实际标记的差距。换句话说,模型在前向传播过程中产生的预测与用于训练它的更大数据集中的实际标记相比如何?在训练过程中,目标是降低这个损失分数,以提高模型的准确性。
-
反向传播:然后使用损失分数计算每个权重的梯度。这些梯度告诉模型如何在下一次前向传播之前调整权重以减少损失。
-
Optimizer更新:Optimizer算法读取这些梯度并调整每个权重以减少损失。
-
重复:重复上述步骤,直到所有数据都已消耗并且模型开始达到收敛 -换句话说,当进一步的优化不再产生显著的损失减少或性能改进时。
训练(预训练和后训练)
完整的模型训练过程包含两个独立的步骤:预训练和后训练。上述步骤是预训练过程的核心组成部分。完成后,它们会生成一个预先训练的基础模型,通常称为基础模型。
然而,模型在预训练后通常需要进一步改进,这被称为后训练。后训练用于以各种方式进一步改进基础模型,包括提高其准确性或针对特定用例(例如翻译或医学诊断)进行定制。
后期培训是让大型语言模型 (LLM)成为如今强大工具的关键一步。后期培训有几种不同的方法。其中最流行的两种是:
-
监督微调 (SFT): SFT 与上述预训练过程非常相似。主要区别在于,基础模型基于更精心策划的数据集或提示和答案进行训练,因此它可以学习遵循特定指令或专注于某个领域。
-
强化学习 (RL): RL 并非通过输入新数据来改进模型,而是通过对模型的输出进行奖励评分,并让模型更新权重以最大化该奖励。最近,推理模型(下文将介绍)已使用 RL 来改进其输出。近年来,随着预训练扩展问题不断涌现,在训练后使用 RL 和推理模型取得了重大进展,因为它无需额外数据或大量计算即可显著提升模型性能。
具体来说,RL 后训练非常适合解决分散训练中面临的障碍(如下所述)。这是因为在 RL 中大多数时间,模型使用前向传递(模型进行预测但尚未改变自身)生成大量输出。这些前向传递不需要机器之间的协调或通信,并且可以异步完成。它们也是可并行的,这意味着它们可以分解为可在多个 GPU 上同时执行的独立子任务。这是因为每个 rollout 都可以独立计算,只需添加计算即可通过训练运行来扩大吞吐量。只有在选出最佳答案后,模型才会更新其内部权重,从而降低机器需要同步的频率。
模型训练完成后,使用它来生成输出的过程称为推理。与需要调整数百万甚至数十亿个权重的训练不同,推理会保持这些权重不变,并简单地将它们应用于新的输入。对于法学硕士 (LLM) 来说,推理意味着获取一个提示,将其运行到模型的各个层,并一步一步地预测最可能的下一个标记。由于推理不需要反向传播(根据模型的误差调整权重的过程)或权重更新,因此它在计算方面的要求远低于训练,但由于现代模型的规模庞大,它仍然是资源密集型的。
简而言之:推理是聊天机器人、代码助手和翻译工具等应用程序的驱动力。在这个阶段,模型将其“学到的知识”付诸实践。
训练开销
促进上述训练过程需要资源密集型,并且需要高度专业化的软件和硬件才能大规模运行。世界领先的人工智能实验室的投入已达到前所未有的水平,从数亿美元到数十亿美元不等。OpenAI 首席执行官 Sam Altman表示,GPT-4 的训练成本超过1 亿美元,而 Anthropic 首席执行官 Dario Amodei 则表示,超过10 亿美元的训练项目已在进行中。
这些成本的很大一部分来自 GPU。像 NVIDIA 的 H100 或 B200 这样的顶级 GPU,单价高达 3 万美元,据报道,OpenAI 计划到 2025 年底部署超过一百万个 GPU。然而,仅有 GPU 的强大功能是不够的。这些系统必须部署在配备超高速通信基础设施的高性能数据中心。NVIDIA NVLink 等技术支持服务器内 GPU 之间的快速数据交换,而 InfiniBand 则连接服务器集群,使它们能够作为单一、统一的计算结构运行。
DGX H100样本架构中的NVLink将系统内的GPU(浅绿色矩形)连接起来,而InfiniBand则将服务器(绿色线条)连接成一个统一的网络
因此,大多数基础模型都由 OpenAI、Anthropic、Meta、Google 和 xAI 等中心化 AI 实验室开发。只有这样的巨头才拥有训练所需的丰富资源。虽然这带来了模型训练和性能的重大突破,但也将领先的基础模型的开发控制权集中到了少数几个实体手中。此外,越来越多的证据表明,缩放定律可能正在发挥作用,限制了仅仅通过增加计算或数据来增强预训练模型智能的有效性。
为了应对这一挑战,过去几年来,一批人工智能工程师开始开发新的模型训练方法,试图解决这些技术复杂性并减少巨大的资源需求。本文将这种努力称为“去中心化训练”。
去中心化和分布式训练
比特币的成功证明了,计算和资本可以以去中心化的方式进行协调,从而保障大型经济网络的安全。去中心化训练旨在利用加密货币的特性,包括无需许可、无需信任和激励机制,构建去中心化网络,从而训练出与中心化提供商媲美的强大基础模型。
在去中心化训练中,位于世界各地不同位置的节点在无需许可、受激励的网络上工作,为人工智能模型的训练做出贡献。这与分布式训练不同,分布式训练指的是模型在不同地域进行训练,但由一个或多个获得许可(即通过白名单流程)的实体进行。然而,去中心化训练的可行性必须建立在分布式训练之上。许多中心化实验室意识到其训练设置存在严格限制,已开始探索实现分布式训练的方法,以获得与现有设置相当的结果。
有一些实际障碍阻碍了去中心化培训成为现实:
-
通信开销:当节点在地理位置上分散时,它们无法访问上述通信基础设施。去中心化训练需要考虑标准的网速、大量数据的频繁传输以及训练过程中 GPU 的同步。
-
验证:去中心化训练网络本质上是无需许可的,旨在允许任何人贡献计算能力。因此,它们必须开发验证机制,以防止贡献者试图通过错误或恶意的输入破坏网络,或利用系统漏洞在不贡献有效工作的情况下获取奖励。
-
计算:无论规模大小,去中心化网络都必须汇聚足够的计算能力来训练模型。虽然这在某种程度上发挥了去中心化网络的优势,因为这些网络的设计初衷是让任何拥有 GPU 的人都能参与训练过程,但这也带来了复杂性,因为这些网络必须协调异构计算。
-
激励/资金/所有权和货币化:去中心化训练网络必须设计激励机制和所有权/货币化模型,以有效确保网络的完整性,并奖励计算提供者、验证者和模型设计者的贡献。这与中心化实验室形成了鲜明对比,在中心化实验室中,模型的构建和货币化由一家公司完成。
尽管存在这些限制,许多项目仍在推行去中心化训练,因为他们认为基础模型的控制权不应掌握在少数几家公司手中。他们的目标是应对中心化训练带来的风险,例如由于依赖少数中心化产品而导致的单点故障;数据隐私和审查制度;可扩展性;以及人工智能的一致性和偏见。更广泛地说,他们认为开源人工智能开发是必需品,而非可有可无。如果没有开放、可验证的基础设施,创新将受到抑制,访问权限将仅限于少数特权阶层,社会将继承受狭隘企业激励机制塑造的人工智能系统。从这个角度来看,去中心化训练不仅关乎构建具有竞争力的模型,也关乎创建一个反映集体利益而非专有利益的弹性、透明和参与性的生态系统。
项目概述
下面,我们将深入概述几个去中心化训练项目的底层机制。
Nous Researc
背景
Nous Research 成立于 2022 年,是一家开源 AI 研究机构。该团队最初是一个由开源 AI 研究人员和开发者组成的非正式团体,致力于解决开源 AI 代码的局限性。其使命是“创造并提供最佳的开源模型”。
团队很早就将去中心化训练视为主要障碍。具体来说,他们意识到,GPU 的访问以及协调 GPU 之间通信的工具主要是为了迎合大型中心化 AI 公司而开发的,这使得资源受限的组织几乎没有空间参与到有意义的开发中。例如,NVIDIA 最新的Blackwell GPU(例如 B200)可以使用 NVLink 交换系统以高达每秒 1.8 TB 的速度相互通信。这可与主流互联网基础设施的总带宽相媲美,并且只有在中心化、数据中心规模的部署中才能实现。因此,小型或分布式网络几乎不可能在不重新思考通信策略的情况下达到大型 AI 实验室的性能。
在着手解决去中心化训练问题之前,Nous 已经为人工智能领域做出了重大贡献。2023 年 8 月,Nous发表了《YaRN:大型语言模型的高效上下文窗口扩展》。这篇论文解决了一个简单但重要的问题:大多数人工智能模型一次只能记住和处理固定数量的文本(即它们的“上下文窗口”)。例如,一个以 2,000 字为限制进行训练的模型,如果输入的文档更长,很快就会开始忘记或丢失信息。YaRN 引入了一种进一步扩展此限制的方法,而无需从头开始重新训练模型。它调整了模型跟踪单词位置的方式(就像书中的书签一样),这样即使文本长达数万字,它仍然可以跟踪信息流。该方法允许模型处理最多 128,000 个标记的序列——大约相当于马克·吐温的《哈克贝利·费恩历险记》的长度——同时使用的计算能力和训练数据比旧方法少得多。简而言之,YaRN 使 AI 模型能够一次性“阅读”并理解更长的文档、对话或数据集。这是 AI 能力扩展的一大进步,并已被包括OpenAI和中国的Deepseek在内的更广泛的研究社区所采用。
DeMo 和 DisTrO
2024年3月,Nous 发表了一项分布式训练领域的突破性成果,名为“Decoupled Momentum Optimization”(DeMo)。DeMo 由 Nous 研究人员 Bowen Peng 和 Jeffrey Quesnelle 与 Diederik P. Kingma(OpenAI 联合创始人兼 AdamW 优化器发明者)合作开发。它是 Nous 去中心化训练栈的主要构建模块,通过减少 GPU 之间交换的数据量,降低了分布式数据并行模型训练设置中的通信开销。在数据并行训练中,每个节点都保存模型权重的完整副本,但数据集会被拆分成由不同节点处理的块。
AdamW 是模型训练中最常用的优化器之一。AdamW 的一个关键功能是平滑所谓的动量(momentum),即模型权重过去变化的运行平均值。本质上,AdamW 有助于消除数据并行训练过程中引入的噪声,从而提高训练效率。Nous Research 基于 AdamW 和 DeMo 创建了一个全新的优化器,将动量拆分为本地部分和跨不同训练器的共享部分。这通过限制节点之间必须共享的数据量,减少了节点之间所需的通信量。
DeMO 选择性地关注每个 GPU 迭代过程中变化最快的参数。其逻辑很简单:变化较大的参数对学习至关重要,应该在优先级更高的工作器之间同步。同时,变化较慢的参数可以暂时滞后,而不会显著影响收敛。实际上,这可以过滤掉噪声更新,同时保留最有意义的更新。Nous 还采用了压缩技术,包括一种类似于 JPEG 压缩图像的离散余弦变换 (DCT) 方法,以进一步减少发送的数据量。通过仅同步最重要的更新,DeMO 将通信开销降低了 10 倍到 1,000 倍(具体取决于模型大小)。有关底层优化的完整技术概述,请参阅Nous Research 的 这篇博客文章。
2024年6月,Nous团队推出了他们的第二项重大创新,即Distributed Training Optimizer(DisTro)。DeMo提供了核心的优化器创新,而DisTrO则将其整合到一个更广泛的优化器框架中,该框架进一步压缩了GPU之间共享的信息,并解决了GPU同步、容错和负载平衡等问题。2024年12月,Nous利用DisTro在类似LlaMA的架构上训练了一个包含150亿个参数的模型,证明了该方法的可行性。
Psyche
今年五月,Nous发布了Psyche,这是一个用于协调去中心化训练的框架,在 DeMO 和 DisTrO 优化器架构上进行了进一步的创新。Psyche 的主要技术升级包括:通过允许 GPU 在开始下一步训练时发送模型更新,改进了异步训练。这最大限度地减少了空闲时间,并使 GPU 的利用率更接近集中式、紧密耦合的系统。Psyche 还进一步改进了 DisTro 引入的压缩技术,将通信负载进一步缩小了 3 倍。
Psyche 可以通过完全链上(通过 Solana)或链下设置实现。它包含三个主要参与者:协调器、客户端和数据提供者。协调器存储所有必要的信息以促进训练运行,包括模型的最新状态、参与的客户端以及数据分配和输出验证。客户端是实际的 GPU 提供者,在训练运行期间执行训练任务。除了模型训练之外,它们还参与见证过程(如下所述)。数据提供者(客户端可以自行存储)提供训练所需的数据。
Psyche 将训练分为两个不同的阶段:epoch和step。这为客户端创建了自然的进入和退出点,使他们无需投入完整的训练运行即可参与。这种结构有助于最大限度地降低 GPU 提供商的机会成本,因为他们可能无法在整个运行期间投入资源。
在一个 epoch 开始时,协调器会定义关键参数:模型架构、待使用的数据集以及所需的客户端数量。接下来是短暂的预热阶段,客户端会同步到最新的模型检查点,检查点可以是来自公共源,也可以是来自其他客户端的点对点同步。训练开始后,每个客户端都会被分配一部分数据,并在本地进行训练。计算更新后,客户端会将其结果连同加密承诺(证明工作正确完成的 SHA-256 哈希值)一起广播到网络的其余部分。
每轮随机选择一部分客户端作为见证人,并作为 Psyche 的主要验证机制。这些见证人照常进行训练,但也会验证哪些客户端更新已接收且有效。它们向协调器提交布隆过滤器(Bloom filters),这是一种轻量级数据结构,可以有效地汇总这些参与情况。虽然 Nous 自己也承认这种方法并不完美,因为它可能会产生误报,但研究人员愿意为了提高效率而接受这种权衡。一旦某个更新的见证人确认达到法定人数,协调器就会将更新应用于全局模型,并允许所有客户端在进入下一轮之前同步其模型。
至关重要的是,Psyche 的设计允许训练和验证重叠。客户端提交更新后,即可立即开始训练下一批次,而无需等待协调器或其他客户端完成上一轮训练。这种重叠设计与 DisTrO 的压缩技术相结合,可确保通信开销保持最小,并确保 GPU 不会闲置。
2025年5月,Nous Research启动了迄今为止规模最大的训练运行:Consilience,这是一个拥有400亿个参数的Transformer,正在Psyche去中心化训练网络中对约20万亿个token进行预训练。训练仍在进行中。到目前为止,运行基本平稳,但出现了一些损失峰值,表明优化轨迹短暂偏离了收敛。为此,团队回滚到最后一个健康检查点,并使用OLMo的Skip-Step保护措施对优化器进行封装,该保护措施会自动跳过任何损失或梯度范数与均值相差几个标准差的更新,从而降低未来出现损失峰值的风险。
Solana 的角色
虽然 Psyche 可以在链下环境中运行,但它旨在在 Solana 区块链上使用。Solana 充当训练网络的信任和问责层,在链上记录客户承诺、见证人证明和训练元数据。这为每一轮训练创建了不可篡改的审计跟踪,从而能够透明地验证谁做出了贡献、完成了哪些工作以及是否通过了验证。
Nous 还计划使用 Solana 来促进训练奖励的分配。尽管该项目尚未发布正式的代币经济学,但 Psyche 的文档概述了一个系统,其中协调员将跟踪客户的计算贡献并根据已验证的工作分配积分。然后,这些积分可以通过充当链上托管的财务智能合约兑换成代币。完成有效训练步骤的客户可以根据其贡献直接从该合约中领取奖励。Psyche 尚未在训练运行中使用奖励机制,但一旦正式启动,该系统预计将在 Nous 加密代币的分配中发挥核心作用。
Hermes 模型系列
除了这些研究贡献外,Nous 还凭借其 Hermes 系列指令调优的大型语言模型 (LLM),确立了其领先的开源模型开发者地位。2024 年 8 月,该团队推出了 Hermes-3,这是一套基于 Llama 3.1 进行微调的全参数模型套件,在公开排行榜上取得了颇具竞争力的成绩,尽管规模相对较小,却足以与规模更大的专有模型相媲美。
最近,Nous 在 2025 年 8 月发布了 Hermes-4 模型系列,这是迄今为止最先进的模型系列。Hermes-4 专注于提升模型的逐步推理能力,同时在常规指令执行方面也表现出色。它在数学、编程、理解和常识测试中均表现出色。团队秉承 Nous 的开源使命,公开发布了所有 Hermes-4 模型权重,供所有人使用和构建。此外,Nous 还发布了一个名为Nous Chat的模型无障碍界面,并在发布后的第一周内免费开放。
Hermes 模型的发布不仅巩固了 Nous 作为模型构建组织的信誉,也为其更广泛的研究议程提供了实践验证。Hermes 的每一次发布都证明了尖端能力可以在开放环境中实现,为团队的去中心化训练突破(DeMo、DisTrO 和 Psyche)奠定了基础,并最终促成了雄心勃勃的 Consilience 40B 运行。
Atropos
如上所述,由于推理模型的进步以及预训练的扩展限制,强化学习在后训练中发挥着越来越重要的作用。Atropos 是 Nous 在去中心化环境下针对强化学习的解决方案。它是一个适用于 LLM 的即插即用模块化强化学习框架,可适应不同的推理后端、训练方法、数据集和强化学习环境。
当使用大量 GPU 以去中心化的方式进行强化学习后训练时,模型在训练过程中生成的即时输出将具有不同的完成时间。Atropos 充当一个 rollout 处理器,即一个中央协调器,用于协调跨设备的任务生成和完成,从而实现异步强化学习训练。
Atropos 的初始版本于 4 月发布,但目前仅包含一个协调强化学习任务的环境框架。Nous 计划在未来几个月内发布补充的训练和推理框架。
Prime Intellect
背景
Prime Intellect 成立于 2024 年,致力于构建大规模去中心化 AI 开发基础设施。该团队由 Vincent Weisser 和 Johannes Hagemann 共同创立,最初专注于整合来自中心化和去中心化提供商的计算资源,以支持高级 AI 模型的协作式分布式训练。Prime Intellect 的使命是实现 AI 开发的民主化,使全球的研究人员和开发者能够访问可扩展的计算资源,并共同拥有开放式 AI 创新。
OpenDiLoCo、INTELLECT-1 和 PRIME
2024年7月,Prime Intellect发布了OpenDiLoCo,这是谷歌 DeepMind 为数据并行训练开发的低通信模型训练方法DiLoCo的开源版本。谷歌基于以下观点开发了该模型:“在现代规模下,通过标准反向传播进行训练带来了前所未有的工程和基础设施挑战……难以协调和紧密同步大量加速器。” 虽然这种说法侧重于大规模训练的实用性,而非开源开发的精神,但它默认了长期集中式训练的局限性以及对分布式替代方案的需求。
DiLoCo 减少了 GPU 之间在训练模型时共享信息的频率和数量。在集中式设置下,GPU 会在训练的每个步骤后彼此共享所有更新后的梯度。而在 DiLoCo 中,更新梯度的共享频率较低,以减少通信开销。这创建了一个双重优化架构:各个 GPU(或 GPU 集群)运行内部优化,在每一步后更新自身模型的权重;以及外部优化,内部优化在 GPU 之间共享,然后所有 GPU 都会根据所做的更改进行更新。
OpenDiLoCo 在其初始版本中展示了 90% 至 95% 的 GPU 利用率,这意味着尽管分布在两大洲和三个国家,但几乎没有任何机器处于闲置状态。OpenDiLoCo 能够重现相当的训练结果和性能,而通信量却减少了 500 倍(如下图紫色线追赶蓝色线所示)。
纵轴表示Perplexity,衡量模型预测序列中下一个标记的能力。Perplexity越低,模型的预测越有信心,准确性也越高
2024年10月,Prime Intellect 开始训练 INTELLECT-1 ,这是首个以分布式方式训练的 100 亿参数语言模型。训练耗时 42 天,之后该模型开源。训练在三大洲五个国家/地区进行。训练运行展示了分布式训练的逐步改进,所有计算资源的利用率达到 83%,仅在美国,节点间通信的利用率就达到 96%。该项目使用的 GPU 来自 Web2 和 Web3 提供商,包括 Akash、Hyperbolic 和 Olas 等加密 GPU 市场。
INTELLECT-1 采用了 Prime Intellect 的全新训练框架 PRIME,该框架允许 Prime Intellect 训练系统在计算意外进入和退出正在进行的训练时进行自适应。它引入了 ElasticDeviceMesh 等创新技术,允许贡献者随时加入或退出。
训练步骤中的活跃训练节点,展示了训练架构处理动态节点参与的能力
INTELLECT-1 是对 Prime Intellect 去中心化训练方法的重要验证,并获得了杰克·克拉克(Anthropic 联合创始人)等人工智能思想领袖的称赞,被认为是去中心化训练的可行示范。
Protocol
今年 2 月,Prime Intellect 在其堆栈上又增添了一层,推出了 Protocol。Protocol 将 Prime Intellect 的所有训练工具连接在一起,创建一个用于去中心化模型训练的点对点网络。其中包括:
-
计算交换 GPU 以促进训练运行。
-
PRIME 训练框架减少了通信开销并提高了容错能力。
-
一个名为 GENESYS 的开源库,用于 RL 微调中有用的合成数据生成和验证。
-
一种名为 TOPLOC 的轻量级验证系统,用于验证模型执行和参与节点的输出。
Protocol 扮演的角色与 Nous 的 Psyche 类似,有四个主要参与者:
-
Workers:一种软件,使用户能够贡献他们的计算资源用于培训或其他 Prime Intellect AI 相关产品。
-
验证者:验证计算贡献并防止恶意行为。Prime Intellect 正在努力将最先进的推理验证算法 TOPLOC 应用于去中心化训练。
-
编排器:计算池创建者管理工作器的一种方式。它的作用与 Nous 的编排器类似。
-
智能合约:追踪计算资源提供者,削减恶意参与者的质押,并自主支付奖励。目前,Prime Intellect 已在以太坊 L2 Base 的 Sepolia 测试网上运行,但 Prime Intellect 已表示最终计划迁移到自己的区块链上。
循序渐进的Protocol训练
Protocol 旨在最终让贡献者拥有模型的股份或因其工作获得奖励,同时为开源人工智能项目提供通过智能合约和集体激励来资助和管理开发的新方法。
INTELLECT 2 和强化学习
今年 4 月,Prime Intellect 开始训练一个名为 INTELLECT-2 的 320 亿参数模型。INTELLECT-1 专注于训练基础模型,而 INTELLECT-2 则在另一个开源模型(阿里巴巴的 QwQ-32B)上使用强化学习来训练推理模型。
该团队引入了两个关键基础设施组件,以使这种分散式 RL 训练变得切实可行:
-
PRIME-RL 是一个完全异步的强化学习框架,它将学习过程分为三个独立的阶段:生成候选答案;对选定的答案进行训练;以及广播更新后的模型权重。这种解耦机制使系统能够跨越不可靠、速度慢或地理位置分散的网络。训练过程使用了 Prime Intellect 的另一项创新技术 GENESYS,生成了数千道数学、逻辑和编码问题,并配备了可以立即判断答案正确与否的自动检查器。
-
SHARDCAST 是一款用于在网络上快速分发大型文件(例如更新的模型权重)的新系统。SHARDCAST 并非每台机器都从中央服务器下载更新,而是采用机器之间共享更新的结构。这使得网络保持高效、快速和弹性。
Intellect-2 分布式强化学习训练基础设施
对于 INTELLECT-2,贡献者还需要质押测试网加密代币才能参与训练运行。如果他们贡献了有效的工作,将自动获得奖励。如果没有,他们的质押可能会被削减。虽然此次测试运行期间没有涉及任何实际资金,但这凸显了一些加密经济实验的初步形式。该领域还需要进行更多的实验,我们预计加密经济在安全性和激励机制方面的应用将有进一步的改变。除了 INTELLECT-2 之外,Prime Intellect 还在继续开展本报告未涵盖的几项重要计划,包括:
-
SYNTHETIC-2,用于生成和验证推理任务的下一代框架;
-
Prime Collective Communications Library,它实现了高效、容错的集体通信操作(例如通过 IP 进行缩减),并提供共享状态同步机制以保持对等点同步,并允许在训练期间的任何时候动态加入和离开对等点,以及自动带宽感知拓扑优化;
-
持续增强 TOPLOC 的功能,以实现可扩展、低成本的推理证明,从而验证模型输出;
-
基于 INTELLECT2 和 SYNTHETIC1 的经验教训,对 Prime Intellect 协议和加密经济层进行改进
Pluralis Research
亚历山大·朗(Alexander Long)是一位澳大利亚机器学习研究员,拥有新南威尔士大学的博士学位。他认为开源模型训练过度依赖领先的人工智能实验室为其他人提供基础模型进行训练。2023年4月,他创立了Pluralis Research,旨在开辟一条不同的道路。
Pluralis Research 采用一种名为“协议学习”的方法来解决去中心化训练问题,该方法被描述为“低带宽、异构多参与者、模型并行的训练和推理”。Pluralis 的一个主要显著特征是其经济模型,该模型为训练模型的贡献者提供类似股权的收益,以激励计算贡献并吸引顶级开源软件研究人员。该经济模型以“不可提取性”的核心属性为前提:即没有任何一个参与者能够获得完整的权重集,而这又与训练方法和模型并行性的使用息息相关。
模型并行性
Pluralis 的训练架构利用了模型并行性,这与 Nous Research 和 Prime Intellect 在初始训练运行中实施的数据并行方法不同。随着模型规模的增长,即使是 H100 机架(最先进的 GPU 配置之一)也难以承载完整的模型。模型并行性通过将单个模型的各个组件拆分到多个 GPU 上,为这一问题提供了一种解决方案。
模型并行化主要有三种方法。
-
流水线并行:模型的各层被划分到不同的 GPU 上。训练过程中,每个小批量数据都像流水线一样流经这些 GPU。
-
张量(层内)并行性:不是为每个 GPU 提供整个层,而是将每个层内的繁重数学运算分开,以便多个 GPU 可以同时共享单个层的工作。
-
混合并行:在实践中,大型模型会混合使用各种方法,同时使用管道和张量并行,通常还会结合数据并行。
模型并行性是分布式训练的一个重要进步,因为它允许训练前沿规模的模型,使较低层级的硬件能够参与,并确保没有任何一个参与者可以访问全套模型权重。
Protocol Learning和Protocol Models
协议学习 (Protocol Learning) 是 Pluralis 在去中心化训练环境中用于模型所有权和货币化的框架。Pluralis 强调了构成协议学习框架的三个关键原则——去中心化、激励和去信任化。
Pluralis 与其他项目的主要区别在于其对模型所有权的关注。鉴于模型的价值主要源于其权重,协议模型 (Protocol Models) 尝试对模型的权重进行拆分,使模型训练过程中的任何单个参与者都无法拥有全部权重。最终,这将赋予训练模型的每个贡献者一定的所有权,从而分享模型产生的收益。
通过训练设置(开放 vs. 封闭数据)和模型权重可用性(开放 vs. 封闭)来定位不同的语言模型
与以往的例子相比,这是一种根本不同的去中心化模型经济学方法。其他项目通过提供资金池来激励贡献,该资金池会在训练周期内根据特定指标(通常是贡献的时间或计算能力)分配给贡献者。Pluralis 的贡献者受到激励,只会将资源投入到他们认为最有可能成功的模型上。训练一个表现不佳的模型会浪费计算能力、能源和时间,因为表现不佳的模型不会产生任何收入。
这与以往的方法有两点不同。首先,它不需要想要训练模型的个人筹集初始资金来支付贡献者的费用,从而降低了模型训练和开发的门槛。其次,它可以更好地协调模型设计者和计算提供商之间的激励机制,因为双方都希望模型的最终版本尽可能完美,以确保其成功。这也为模型训练专业化的出现提供了可能性。例如,可能会有更多风险承受能力更强的训练师为早期/实验模型提供计算服务,以寻求更大的回报(类似于风险投资家),而计算提供商则只关注那些成熟且应用可能性更高的模型(类似于私募股权投资者)。
虽然PM可能代表着去中心化训练货币化和激励机制的重大突破,但Pluralis尚未详细阐述其具体实施方式。鉴于该方法的高度复杂性,尚待解决的问题包括如何分配模型所有权、如何分配收益,甚至如何管理模型未来的升级或用例。
去中心化训练创新
除了经济方面的考虑之外,Protocol Learning)还面临着与其他去中心化训练项目相同的核心挑战,即使用具有通信限制的异构 GPU 网络来训练大型 AI 模型。
今年 6 月,Pluralis宣布成功训练基于 Meta 的 Llama 3 架构的 80 亿参数 LLM,并发表了其协议模型论文。在论文中,Pluralis 展示了如何降低进行模型并行训练的 GPU 之间的通信开销。它通过将流经每个 Transformer 层的信号限制在一个预先选定的微小子空间中来实现这一点,将前向和后向传递压缩高达 99%,从而将网络流量减少 100 倍,同时又不影响准确性或增加明显的开销。简而言之,Pluralis 找到了一种方法,可以将相同的学习信息压缩到早期方法所需带宽的一小部分。
这是首次去中心化训练运行,模型本身被分散到通过低带宽连接的节点上,而不是进行复制。该团队成功地在遍布四大洲的低端消费级 GPU 上训练了一个拥有 80 亿个参数的 Llama 模型,这些 GPU 仅通过每天 80 兆每秒的家庭互联网连接进行连接。在论文中,Pluralis 证明了该模型的收敛效果与在 100 Gb/s 数据中心集群上运行时一样好。在实践中,这意味着大规模模型并行去中心化训练现在已成为可能。
最终,Pluralis 的一篇关于异步训练用于流水线并行训练的论文于 7 月被 ICML(领先的人工智能会议之一)接收。当通过互联网而非高速数据中心进行流水线并行训练时,它同样面临通信瓶颈,因为节点的运行方式本质上类似于流水线,每个连续节点都等待前一个节点更新模型。这会导致梯度过时和信息传输延迟。论文中演示的去中心化训练框架 SWARM 消除了通常阻碍日常 GPU 参与训练的两个经典瓶颈:内存容量和紧密同步。消除这两个瓶颈可以更好地利用所有可用的 GPU,缩短训练时间并降低成本,这对于使用基于志愿者的分布式基础设施扩展大型模型至关重要。如需简要了解此过程,请观看Pluralis 的 这段视频。
展望未来,Pluralis表示计划很快启动一项任何人都可以参与的实时培训,但尚未确定具体日期。此次发布将提供对该协议尚未发布的方面更深入的了解,特别是经济模型和加密基础设施。
Templar
背景
Templar 于 2024 年 11 月上线,是一个基于 Bittensor 协议子网的激励驱动型去中心化 AI 任务市场。它最初是一个实验性框架,旨在汇集全球 GPU 资源进行无需许可的 AI 预训练,并旨在通过 Bittensor 的代币化激励机制,使大规模模型训练变得可访问、安全且具有弹性,从而重新定义 AI 开发。
从一开始,Templar 就承担了协调互联网上 LLM 预训练的去中心化训练的挑战。这是一项艰巨的任务,因为延迟、带宽限制和异构硬件使得分布式参与者难以达到集中式集群的效率,而集中式集群的无缝 GPU 通信可以实现对海量模型的快速迭代。
最关键的是,Templar 优先考虑真正无需许可的参与,允许任何拥有计算资源的人无需批准、注册或把关即可参与 AI 训练。这种无需许可的方法对于 Templar 实现 AI 开发民主化的使命至关重要,因为它确保突破性的 AI 能力不会被少数中心化实体控制,而是能够从全球开放的协作中涌现出来。
Templar训练
Templar 使用数据并行进行训练,主要有两个因素:
-
矿工:这些参与者执行训练任务。每个矿工都会与最新的全局模型同步,获取唯一的数据分片,使用前向和后向传递进行本地训练,使用自定义 CCLoco 优化器(下文介绍)压缩梯度,并提交梯度更新。
-
验证器:验证器下载并解压矿工提交的更新,将其应用到模型的本地副本,并计算损失增量(衡量模型改进程度的指标)。这些增量用于通过 Templar 的 Gauntlet 系统对矿工的贡献进行评分。
为了降低通信开销,Templar 的研究团队首先开发了块压缩 DiLoCo(CCLoco)。与 Nous 类似,CCLoco 改进了 Google DiLoCo 框架等通信高效的训练技术,从而将节点间通信成本降低了几个数量级,同时减少了此类方法经常导致的损失。CCLoco 并非每一步都发送完整的更新,而是以设定的时间间隔仅共享最重要的更改,并保持较小的运行计数,以确保不会丢失任何有意义的数据。该系统采用基于竞争的模型,激励矿工提供低延迟更新以获得奖励。为了获得奖励,矿工必须通过部署高效的硬件来跟上网络的步伐。这种竞争结构旨在确保只有能够保持足够性能的参与者才能参与训练过程,而轻量级的健全性检查则会过滤掉明显不良或格式错误的更新。8 月,Templar 正式发布了更新后的训练架构,并将其更名为 SparseLoCo。
验证者使用 Templar 的 Gauntlet 系统,根据观察到的模型损失减少贡献来跟踪和更新每个矿工的技能评级。借助名为 OpenSkill 的技术,持续进行有效更新的高质量矿工将获得更高的技能评级,从而提升其对模型聚合的影响力,并赚取更多 TAO(Bittensor 网络的原生代币)。评级较低的矿工将在聚合过程中被丢弃。评分后,质押额最高的验证者将汇总排名靠前的矿工的更新,对新的全局模型进行签名,并将其发布到存储中。如果出现模型不同步的情况,矿工可以使用此版本的模型进行追赶。
Templar 去中心化训练架构
Templar 迄今已启动三轮训练:Templar I、Templar II 和 Templar III。Templar I 是一个包含 12 亿个参数的模型,在全球部署了近 200 块 GPU。Templar II 正在进行中,正在训练一个包含 80 亿个参数的模型,并计划很快启动更大规模的训练。Templar 现阶段专注于训练参数较小的模型,这是经过深思熟虑的选择,旨在确保去中心化训练架构的升级(如上所述)在扩展到更大模型规模之前能够有效发挥作用。从优化策略和调度到研究迭代和激励机制,在参数较小的 80 亿个模型上验证这些想法,使团队能够快速且经济高效地进行迭代。继近期取得进展并正式发布训练架构后,团队于 9 月推出了Templar III,这是一个包含 700 亿个参数的模型,也是迄今为止去中心化领域规模最大的预训练运行。
TAO 和激励机制
Templar 的一个关键特色是其与 TAO 绑定的激励模型。奖励根据模型训练的技能加权贡献进行分配。大多数协议(例如 Pluralis、Nous、Prime Intellect)都已构建了许可运行或原型,而 Templar 则完全在 Bittensor 的实时网络上运行。这使得 Templar 成为唯一一个已将实时、无需许可的经济层集成到其去中心化训练框架中的协议。这种实时的生产部署使 Templar 能够在实时训练运行场景中迭代其基础设施。
每个 Bittensor 子网都使用其自己的“alpha”代币运行,该代币充当奖励机制和子网感知价值的市场信号。Templar 的 alpha 代币称为 gamma。alpha 代币不能在外部市场上自由交易;它们只能通过其子网专用的流动性池,使用自动做市商 (AMM) 兑换 TAO。用户可以质押 TAO 来获得 gamma,也可以将 gamma 赎回为 TAO,但不能直接将 gamma 兑换成其他子网的 alpha 代币。Bittensor 的动态 TAO (dTAO) 系统使用 alpha 代币的市场价格来确定子网之间的发行分配。当 gamma 的价格相对于其他 alpha 代币上涨时,这表明市场对 Templar 去中心化训练能力的信心增强,从而导致子网的 TAO 发行量增加。截至 9 月初,Templar 的每日发行量约占 TAO 发行量的 4%,在 TAO 网络的 128 个子网中排名前六。
子网的发行机制具体如下:在每个12秒的区块中,Bittensor 链会根据子网 alpha 代币相对于其他子网的价格比例,向其流动性池发行 TAO 和 alpha 代币。每个区块最多向子网发行一个完整的 alpha 代币(初始发行率,可能会减半),用于激励子网贡献者,其中 41% 分配给矿工,41% 分配给验证者(及其质押者),18% 分配给子网所有者。
这种激励机制通过将经济奖励与参与者提供的价值挂钩,推动对 Bittensor 网络的贡献。矿工有动力提供高质量的 AI 输出,例如模型训练或推理任务,从而获得验证者更高的评分,从而获得更大的产出份额。验证者(及其质押者)因准确评估和维护网络完整性而获得奖励。
Alpha 代币的市场估值由质押活动决定,确保表现出更高实用性的子网能够吸引更多 TAO 的流入和发行,从而营造一个鼓励创新、专业化和持续发展的竞争环境。子网所有者将获得一定比例的奖励,从而受到激励去设计有效的机制并吸引贡献者,最终构建一个无需许可的去中心化 AI 生态系统,让全球参与共同促进集体智慧的进步。
该机制还引入了新的激励挑战,例如保持验证者的诚实、抵御女巫攻击以及减少串谋。Bittensor 子网经常受到验证者或矿工与子网创建者之间猫鼠游戏的困扰,前者试图玩弄系统,后者试图阻挠他们。从长远来看,随着子网所有者学会如何智胜恶意行为者,这些斗争应该会使该系统成为最强大的系统之一。
Gensyn
Gensyn 于 2022 年 2 月发布了其首篇精简版白皮书,阐述了去中心化训练的框架(Gensyn 是我们去年首篇关于理解加密技术与人工智能交集的文章中唯一涵盖的去中心化训练协议)。当时,该协议主要侧重于 AI 相关工作负载的验证,允许用户向网络提交训练请求,由计算提供商处理,并确保这些请求按承诺执行。
最初的愿景还强调了加速应用机器学习 (ML) 研究的必要性。2023 年,Gensyn 在此愿景的基础上,明确提出了在全球范围内获取机器学习计算资源的更广泛需求,以服务于特定 AI 应用。Gensyn 引入了 GHOSTLY 原则作为此类协议必须满足的框架:通用性、异构性、开销、可扩展性、去信任性和延迟。Gensyn 一直专注于构建计算基础设施,此次合作标志着其正式扩展至计算之外的其他关键资源。
Gensyn 的核心将其训练技术栈分为四个不同的部分——执行、验证、通信和协调。执行部分负责处理世界上任何能够执行机器学习操作的设备上的操作。通信和协调部分使设备能够以标准化的方式相互发送信息。验证部分则确保所有操作无需信任即可进行计算。
执行—RL Swarm
Gensyn 在这个堆栈中的第一个实现是一个名为 RL Swarm 的训练系统,这是一种用于训练后强化学习的分散协调机制。
RL Swarm 旨在允许多个计算提供商在无需许可、信任最小化的环境中参与单个模型的训练。该协议基于一个三步循环:回答、评审和解决。首先,每个参与者根据提示生成模型输出(答案)。然后,其他参与者使用共享奖励函数评估该输出并提交反馈(评审)。最后,这些评审将用于选出最佳答案,并将其纳入模型的下一个版本(解决)。整个过程以点对点的方式进行,无需依赖中央服务器或可信机构。
RL Swarm训练循环
强化学习 Swarm 建立在强化学习在模型后训练中日益凸显的重要性之上。随着模型在预训练阶段达到规模上限,强化学习提供了一种机制,无需在海量数据集上进行重新训练,即可提升推理能力、指令遵循能力和事实性。Gensyn 的系统通过将强化学习循环分解为不同的角色,在去中心化环境中实现了这一改进,每个角色都可以独立验证。至关重要的是,它引入了容错异步执行功能,这意味着贡献者无需始终在线或保持完美同步即可参与。
它本质上也是模块化的。该系统不需要使用特定的模型架构、数据类型或奖励结构,允许开发人员根据其特定用例定制训练循环。无论是训练编码模型、推理代理,还是具有特定指令集的模型,RL Swarm 都能为去中心化 RL 工作流提供可靠的大规模运行框架。
验证—Verde
到目前为止,本报告中关于去中心化训练讨论最少的方面之一是验证。Gensyn 为其 GPU 市场构建了 Verde 信任层。借助Verde,Gensyn 引入了一种新的验证机制,以便协议用户可以相信另一端的人正在按照他们所说的去做。
每个训练或推理任务都会被调度到由应用程序确定的一定数量的独立提供者。如果他们的输出完全匹配,则该任务被接受。如果输出不同,则裁判协议会定位两条轨迹出现分歧的第一个步骤,并仅重新计算该操作。数字与裁判匹配的一方保留其付款,而另一方则损失其权益。
让这一切成为可能的是 RepOps,这是一个“可重复算子”库,它强制常见的神经网络数学运算(矩阵乘法、激活等)在任何 GPU 上以固定的、确定性的顺序运行。确定性在这里至关重要;否则,尽管两个验证器都正确,但它们可能会产生不同的结果。因此,诚实的提供商会提供逐位相同的结果,让 Verde 将比赛视为正确性的证明。由于裁判只重放一个微步,因此增加的成本只有几个百分点,而不是这些过程中通常使用的完整加密证明的 10,000 倍开销。
Verde 验证协议架构
今年8月,Gensyn发布了Judge,这是一个可验证的AI评估系统,包含两个核心组件:Verde和可复现的运行时,后者可保证跨硬件的逐位相同结果。为了展示它,Gensyn推出了一款“渐进式揭示游戏”,其中AI模型在信息揭示的过程中对复杂问题的答案进行押注,Judge会确定性地验证结果,并对准确的早期预测进行奖励。
Judge 意义重大,因为它解决了 AI/ML 中的信任和可扩展性问题。它能够实现可靠的模型比较,在高风险环境下提升透明度,并通过允许独立验证来降低偏见或操纵的风险。除了推理任务之外,Judge 还可以支持其他用例,例如去中心化争议解决和预测市场,这与 Gensyn 构建可信分布式 AI 计算基础设施的使命相契合。最终,像 Judge 这样的工具可以增强可重复性和可问责性,这在 AI 日益成为社会核心的时代至关重要。
沟通与协调:Skip-Pipe和多元化专家集成
Skip-Pipe 是 Gensyn 针对单个巨型模型在多台机器上进行切片时出现的带宽瓶颈问题而提出的解决方案。如前所述,传统的流水线训练强制每个微批次按顺序遍历所有层,因此任何速度较慢的节点都会导致流水线停滞。Skip-Pipe 的调度程序可以动态跳过或重新排序可能造成延迟的层,从而将迭代时间缩短高达 55%,并且即使一半节点发生故障也能保持可用性。通过减少节点间流量并允许根据需要删除层,它使训练器能够将非常大的模型扩展到地理位置分散、带宽较低的 GPU 上。
多样化专家集成解决了另一个协调难题:如何构建一个强大的“混合专家”系统,避免持续的串扰。Gensyn 的异构领域专家集成 (HDEE) 完全独立地训练每个专家模型,并仅在最后进行合并。出乎意料的是,在相同的总体计算预算下,最终集成在 21 个测试领域中的 20 个领域中超越了统一的基准。由于训练期间机器之间没有梯度或激活函数的流动,因此任何空闲的 GPU 都可以贡献计算能力。
Skip-Pipe 和 HDEE 共同为 Gensyn 提供了高效的通信方案。该协议可以在必要时在单个模型内进行分片,或者在独立性成本更低的情况下并行训练多个小型专家,并且无需像传统方式那样对完美、低延迟的网络进行操作。
测试网
三月份,Gensyn 在一个定制的以太坊 rollup 上部署了测试网。团队计划逐步更新测试网。目前,用户可以参与 Gensyn 的三项产品:RL Swarm、BlockAssist 和 Judge。如上所述,RL Swarm 允许用户参与 RL 训练后流程。八月,团队推出了 BlockAssist,“这是辅助学习的第一个大规模演示,它是一种直接从人类行为中训练代理的方法,无需手动标记或 RLHF”。用户可以下载 Minecraft,并使用 BlockAssist 来训练 Minecraft 模型,从而畅玩游戏。
其他值得关注的项目
以上章节概述了为实现去中心化训练而实施的主流架构。然而,新的项目也层出不穷。以下是去中心化训练领域的一些新项目:
Fortytwo: Fortytwo 构建于 Monad 区块链之上,专注于群体推理 (SLM),其中多个小型语言模型 (SLM) 在节点网络中协作处理查询并生成同行评审的输出,从而提高准确性和效率。该系统利用闲置笔记本电脑等消费级硬件,无需像集中式 AI 那样使用昂贵的 GPU 集群。该架构包含去中心化的推理执行和训练功能,例如为专用模型生成合成数据集。该项目已在 Monad 开发网络上线。
Ambient: Ambient 是即将上线的“有用工作量证明”Layer -1 区块链,旨在为链上始终在线、自主运行的 AI 代理提供支持,使其能够在无需中心化监管的无许可生态系统中持续执行任务、学习和演进。它将采用单一开源模型,该模型由网络矿工协作训练和改进,贡献者将因其在训练、构建和使用 AI 模型方面的贡献而获得奖励。虽然 Ambient 强调去中心化推理,尤其是在代理方面,但网络上的矿工也将负责持续更新支撑网络的基础模型。Ambient 采用了一种新颖的p roof- o f-logits 机制(在该系统中,验证者可以通过检查矿工的原始输出值(称为 logits)来验证其是否正确运行了模型计算)。该项目基于 Solana 的一个分叉构建,尚未正式上线。
Flower Labs: Flower Labs 正在开发一个用于联邦学习的开源框架 Flower,该框架支持跨去中心化数据源进行协作式 AI 模型训练,无需共享原始数据,从而在聚合模型更新的同时保护隐私。Flower 的成立旨在解决数据集中化问题,它允许机构和个人使用本地数据(例如医疗保健或金融领域)训练模型,同时通过安全的参数共享为全球改进做出贡献。与强调代币奖励和可验证计算的加密原生协议不同,Flower 优先考虑在实际应用中保护隐私的协作,使其成为无需区块链的受监管行业的理想之选。
Macrocosmos: Macrocosmos 在 Bittensor 网络上运行,正在开发涵盖五个子网的完整 AI 模型创建流程,这些子网专注于预训练、微调、数据收集和去中心化科学。它引入了激励编排训练架构 (IOTA) 框架,用于在异构、不可靠且无需许可的硬件上对大型语言模型进行预训练,并已启动超过 10 亿次参数训练,并计划很快扩展到更大的参数模型。
Flock.io:Flock是一个去中心化的 AI 训练生态系统,将联邦学习与区块链基础设施相结合,从而在一个模块化、代币激励的网络中实现隐私保护的协作模型开发。参与者可以贡献模型、数据或计算资源,并获得与其贡献成比例的链上奖励。为了保护数据隐私,该协议采用了联邦学习。这使得参与者能够使用未与他人共享的本地数据来训练全局模型。虽然这种设置需要额外的验证步骤,以防止无关数据(通常称为数据中毒)进入模型训练,但它对于医疗保健应用等用例来说是一个有效的推广方案,在这些应用中,多个医疗保健提供者可以在不泄露高度敏感的医疗数据的情况下训练全局模型。
前景与风险
在过去的两年里,去中心化训练已经从一个有趣的概念转变为一个在实际环境中运行的有效网络。虽然这些项目距离预期的最终状态还很远,但在实现去中心化训练的道路上,它们正在取得有意义的进展。回顾现有的去中心化训练格局,一些趋势开始显现:
实时概念验证已不再是空想。在过去一年中,Nous 的 Consilience 和 Prime Intellect 的 INTELLECT-2 等早期验证已进入生产规模运行。OpenDiLoCo 和 Protocol Models 等突破性进展正在分布式网络上实现高性能 AI,促进经济高效、弹性且透明的模型开发。这些网络正在协调数十个甚至数百个 GPU,实时预训练和微调中型模型,证明了去中心化训练可以超越封闭式演示和临时黑客马拉松。虽然这些网络仍非无需许可的网络,但 Templar 在这方面脱颖而出;它的成功强化了这样一种观点:去中心化训练正在从简单地证明底层技术有效,发展到能够扩展以匹配中心化模型的性能,并吸引大规模生产基础模型所需的 GPU 资源。
模型规模不断扩大,但差距依然存在。从2024年到2025年,去中心化项目的参数模型数量从个位数跃升至300亿至400亿。然而,领先的人工智能实验室已经发布了数万亿参数的系统,并凭借其垂直整合的数据中心和最先进的硬件持续快速创新。去中心化训练能够利用来自世界各地的训练硬件,弥补这一差距,尤其是在中心化训练方法因需要越来越多的超大规模数据中心而面临越来越大的限制的情况下。但缩小这一差距将取决于高效通信的优化器和梯度压缩方面的进一步突破,以实现全球规模,以及不可操纵的激励和验证层。
训练后工作流程正日益成为关注的领域。监督式微调、RLHF 和特定领域强化学习所需的同步带宽远低于全面的预训练。PRIME-RL 和 RL Swarm 等框架已在不稳定的消费级节点上运行,让贡献者能够利用闲置的周期获利,同时项目也能快速将定制模型商业化。鉴于 RL 非常适合去中心化训练,它作为去中心化训练项目关注领域的重要性可能会日益凸显。这使得去中心化训练有可能率先在 RL 训练中找到规模化的产品市场契合点,越来越多的团队推出 RL 专用训练框架就证明了这一点。
激励和验证机制落后于技术创新。激励和验证机制仍然落后于技术创新。只有少数网络,尤其是Templar,提供实时代币奖励和链上罚没机制,从而有效地遏制不良行为,并已在实际环境中进行测试。尽管其他项目正在试验声誉评分、证人证明或训练证明方案,但这些系统仍未经验证。即使技术障碍得以克服,治理也将带来同样艰巨的挑战,因为去中心化网络必须找到制定规则、执行规则和解决争议的方法,而不会重复加密DAO中出现的低效现象。解决技术障碍只是第一步;长期生存能力取决于将其与可靠的验证机制、有效的治理机制以及引人注目的货币化/所有权结构相结合,以确保人们对所开展工作的信任,并吸引扩大规模所需的人才和资源。
堆栈正在融合成端到端的流水线。如今,大多数领先的团队都将带宽感知优化器(DeMo、DisTrO)、去中心化计算交换(Prime Compute、Basilica)和链上协调层(Psyche、PM、PRIME)结合在一起。最终形成了一个模块化的开放流水线,它反映了中心化实验室从数据到部署的工作流程,只是没有单一的控制点。即使项目没有直接集成自己的解决方案,或者即使集成了,它们也可以接入其他专注于去中心化训练所需垂直领域的加密项目,例如数据供应协议、GPU 和推理市场以及去中心化存储主干网。这种周边基础设施为去中心化训练项目提供了即插即用的组件,可以进一步利用这些组件来增强其产品,并更好地与中心化同行竞争。
风险
硬件和软件优化是一个不断变化的目标——中央实验室也在不断拓展这一领域。Nvidia的 Blackwell B200 芯片刚刚公布,在MLPerf基准测试中,无论是 4050 亿个参数的预训练还是 700 亿个LoRA微调,其训练吞吐量都比上一代快了 2.2 到 2.6 倍,为巨头们大幅降低了时间和能源成本。在软件方面,PyTorch 3.0 和 TensorFlow 4.0 引入了编译器级图融合和动态形状内核,从而在同一块芯片上进一步提升性能。随着硬件和软件优化的改进,或新的训练架构的出现,去中心化训练网络也必须跟上步伐,不断更新其堆栈,以适应最快、最先进的训练方法,从而吸引人才并激励有意义的模型开发。这将要求团队开发出能够确保持续高性能的软件(无论底层硬件如何),以及使这些网络能够适应底层训练架构变化的软件堆栈。
现有企业开源模型,模糊了去中心化和中心化训练之间的界限。中心化人工智能实验室大多保持模型封闭,这进一步证明了去中心化训练是保证开放性、透明度和社区治理的一种方式。尽管最近发布的 DeepSeek、GPT 开源版本和 Llama 等项目表明了其向更高开放性的转变,但在竞争、监管和安全担忧日益加剧的背景下,这种趋势能否持续尚不明朗。即使权重被公开,它们仍然反映了原始实验室的价值观和选择——独立训练的能力对于适应性、与不同优先事项的协调以及确保访问不受少数现有企业的限制至关重要。
人才招聘依然困难重重。许多团队都告诉我们这一点。虽然加入去中心化培训项目的人才质量有所提升,但他们缺乏领先人工智能实验室那样的雄厚资源(例如,OpenAI 最近为每位员工提供数百万美元的“特别奖励”,或者 Meta 为挖角研究人员而提供的 2.5 亿美元报价)。目前,去中心化项目吸引的是那些重视开放性和独立性的使命驱动型研究人员,同时也能从更广泛的全球人才库和充满活力的开源社区中汲取人才。然而,为了在规模上竞争,他们必须通过训练出与现有企业相当的模型,并完善激励和货币化机制来证明自己,从而为贡献者创造有意义的收益。虽然无需许可的网络和加密经济激励措施提供了独特的价值,但无法获得分销并建立可持续的收入来源可能会阻碍该领域的长期增长。
监管阻力确实存在,尤其对于未经审查的模型而言。去中心化训练面临着独特的监管挑战:从设计上来说,任何人都可以训练任何类型的模型。这种开放性固然是优势,但也引发了安全隐患,尤其是在生物安全、虚假信息或其他敏感领域滥用方面。欧盟和美国的政策制定者已发出信号,表示将加强审查:欧盟《人工智能法案》对高风险的基础模型规定了额外义务,而美国机构正在考虑对开放系统进行限制,并可能采取出口式管控措施。单单涉及将去中心化模型用于有害目的的事件,就可能引发全面的监管,从而威胁到无需许可的训练的根本原则。
分发和货币化:分发仍然是一项重大挑战。包括 OpenAI、Anthropic 和 Google 在内的领先实验室,通过品牌知名度、企业合同、云平台集成以及直接接触消费者,拥有巨大的分发优势。相比之下,去中心化训练项目缺乏这些内置渠道,必须付出更多努力才能让模型被采用、获得信任并嵌入到实际工作流程中。鉴于加密货币在加密应用之外的整合仍处于萌芽阶段(尽管这种情况正在迅速改变),这可能会更具挑战性。一个非常重要且尚未解决的问题是,谁将真正使用这些去中心化训练模型。高质量的开源模型已经存在,一旦新的先进模型发布,其他人提取或调整它们并不特别困难。随着时间的推移,去中心化训练项目的开源性质应该会产生网络效应,从而解决分发问题。然而,即使他们能够解决分发问题,团队也将面临产品货币化的挑战。目前,Pluralis 的项目经理似乎最直接地应对这些货币化挑战。这不仅仅是一个加密 x AI 问题,而是一个更广泛的加密问题,凸显了未来的挑战。
结论
去中心化训练已迅速从一个抽象概念演变为协调全球实际训练运行的有效网络。过去一年,包括 Nous、Prime Intellect、Pluralis、Templar 和 Gensyn 在内的项目已经证明,将去中心化 GPU 连接在一起、高效压缩通信,甚至开始在实际环境中试验激励机制是可能的。这些早期演示证明了去中心化训练可以超越理论,尽管在前沿规模上与中心化实验室竞争的道路仍然艰难。
即使去中心化项目最终训练出的基础模型足以与当今领先的人工智能实验室相媲美,它们也面临着最严峻的考验:证明其在理念诉求之外的现实优势。这些优势可能通过卓越的架构或奖励贡献者的全新所有权和货币化方案内生显现。或者,如果中心化现有参与者试图通过保持权重封闭或注入不受欢迎的对齐偏差来扼杀创新,这些优势也可能外生显现。
除了技术进步之外,人们对该领域的态度也开始转变。一位创始人这样描述过去一年主要人工智能会议上人们情绪的变化:一年前,人们对去中心化训练几乎没有兴趣,尤其是与加密货币结合使用时;六个月前,与会者开始认识到潜在的问题,但对大规模实施的可行性表示怀疑;而近几个月来,人们越来越认识到,持续的进步可以使可扩展的去中心化训练成为可能。这种观念的演变表明,不仅在技术领域,而且在合法性方面,去中心化训练的势头也在增强。
风险是真实存在的:现有企业仍保持着硬件、人才和分销优势;监管审查迫在眉睫;激励和治理机制仍未得到大规模检验。然而,其优势也同样引人注目。去中心化训练不仅代表着一种替代的技术架构,更代表着一种构建人工智能的根本性理念:无需许可、全球所有,并与多元化社区而非少数几家公司保持一致。即使只有一个项目能够证明开放性能够转化为更快的迭代、新颖的架构或更具包容性的治理,这也将标志着加密货币和人工智能的突破性时刻。未来的道路漫长,但成功的核心要素如今已牢牢掌握。