【2 天训练出 15 亿参数大模型:国产开源项目力克英伟达 Megatron-LM】1 月 20 日消息,当今 AI 之势,影响纵深发展的矛盾是什么?
一方面,大模型风头正劲,效果惊艳,人人都想试试。但另一方面,硬件基础上动不动就是上万张 GPU 的大规模集群在日夜燃烧,钞能力劝退。
所以如果告诉你,现在只用一半数量的 GPU,也能完成同样的 GPT-3 训练呢?
你会觉得关键钥匙是什么?
不卖关子了。实现如此提升的,是一个名为 Colossal-AI 的 GitHub 开源项目。
而且该项目开源不久,就迅速登上了 Python 方向的热榜世界第一。
不仅能加速 GPT-3,对于 GPT-2、ViT、BERT 等多种模型,Colossal-AI 的表现也都非常 nice:
比如半小时左右就能预训练一遍 ViT-Base / 32,2 天能训完 15 亿参数 GPT 模型、5 天可训完 83 亿参数 GPT 模型。
与业内主流的 AI 并行系统 —— 英伟达 Megatron-LM 相比,在同样使用 512 块 GPU 训练 GPT-2 模型时,Colossal-AI 的加速比是其 2 倍。而在训练 GPT-3 时,更是可以节省近千万元的训练费用。
此外在训练 GPT-2 时,显存消耗甚至能控制在 Megatron-LM 的十分之一以下。
Colossal-AI 究竟是如何做到的?
简单来说,Colossal-AI 就是一个整合了多种并行方法的系统,提供的功能包括多维并行、大规模优化器、自适应任务调度、消除冗余内存等。