热门

最新

红包

立Flag

投票

同城

我的

发布
devhero
op7418
2 年前
truedevhero

LLM 的分布式训练取得了重大进展。

P2P 去中心化的模型训练可能是未来解决模型算力缺口的一个重要方向。

Prime Intellect 发布了支持全球范围内的 AI 模型分布式训练框架 OpenDiLoCo。

他们利用这个框架进行了一个实验,在三个国家之间训练了一个模型。

计算资源利用率达到了90-95%,并将其扩展到原始工作规模的三倍,证明了其对十亿参数模型的有效性。

这个框架基于 Google Deepmind 的分布式低通信 (DiLoCo) 方法。

OpenDiLoCo 的特点包括:计算资源的动态调整、容错训练、点对点架构:没有主节点。

由于 DiLoCo 减少了通信时间,全归约瓶颈仅占训练时间的 6.9%,对整体训练速度的影响微乎其微。

CSDN App 扫码分享
分享
7
74
  • 复制链接
  • 举报
下一条:
代理们将会全天24小时不断消耗代币,为世界创造价值。
立即登录