Meta 正在打造一个超大规模的人工智能计算平台 Llama3正在上面训练
Meta 的 GenAI 基础设施计划主要包括以下几个方面:
1、GPU 集群规模:Meta 宣布了包含24,000 GPU 的两个集群,并计划到 2024年底将其基础设施扩展至包含 350,000 NVIDIA H100 GPUS。提供近 600,000 H100 的计算能力。
2、硬件平台:这些集群使用了Meta 自家设计的开放GPU硬件平台— Grand Teton,并已将其贡献给了开放计算项目(Open Compute Project, OCP)。
3、支持先进 AI 模型开发:这些集群旨在支持当前和下一代 AI 模型,包括Llama 3等,以及 GenAI 和其他领域的研究和开发工作。
4\AI 研究加速器 (RSC):Meta 的AI 研究加速器(RSC)特别在Llama 和 Llama 2的开发以及其他高级AI模型的应用中起到了重要作用。新的 AI集群在 RSC的基础上进一步发展。
5、网络解决方案:Meta 构建了两种网络解决方案。一种基于 Arista 7800的远程直接内存访问(RDMA)覆盖以太网(RoCE)网络织物解决方案,另一种是采用 NVIDIA Quantum2 InfiniBand 织物。
6、存储解决方案:Meta 的存储部署通过使用基于 Meta "Tectonic” 分布式存储解决方案的家族 Linux 文件系统(FUSE) API,以及与 Hammerspace 合作开发的并行网络文件系统(NFS)部署,满足了 AI集群的数据和检查点需要。
7、性能优化:Meta 在构建其大规模 AI集群时致力于同时最大化性能和易用性,通过优化内部作业调度器的网络拓扑感知调度作业,以及优化网络路由策略结合 NVIDIA 集体通信库(NCCL)的变更,实现了优化的网络利用率,使得大规模集群能够达到与小规模集群相当的优秀性能。
8.开放创新:Meta 持续支持开放硬件创新,作为OCP 的创始成员,使 Grand Teton 和 Open Rack 的设计可供 OCP社区使用,并作为 PyTorch 的最大和主要贡献者,支持开源软件创新。