热门
最新
红包
立Flag
投票
同城
我的
发布
小扎真的全力以赴投入人工智能了,Meta宣布他们正在开发两个拥有24,000个GPU的超级计算集群。并计划在2024年底之前,使其综合计算能力接近60万个H100 GPU。
这些超级计算集群将用于支持多种人工智能任务,包括训练Llama 3这样的大型人工智能模型。Meta特别强调,他们致力于开放计算和开源技术,这些集群是基于Grand Teton、OpenRack和PyTorch等平台构建的。
这些集群的设计旨在支撑大型和复杂的人工智能模型,重点提升性能、确保可靠性和扩展能力。
Meta的策略包括设计定制化的硬件设备、采用先进的网络解决方案,比如通过融合以太网的RDMA(RoCE)以及NVIDIA Quantum2 InfiniBand网络技术,以及利用FUSE API和Tectonic分布式存储技术优化存储方案。
此外,Meta还注重通过软件优化和与框架开发者(例如PyTorch)合作,以确保其人工智能集群在最大化性能的同时,用户使用起来也更加便捷。
来源:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
CSDN App 扫码分享
7
28
- 复制链接
- 举报