热门

最新

红包

立Flag

投票

同城

我的

发布
qq_51646682
Code_流苏
1 年前
trueqq_51646682

DeepSeek 开源 第二天:DeepEP

第一个用于MoE 模型训练和推理的开源 EP 通信库。

✅高效且优化的全对全通信
✅通过 NVLink和 RDMA 支持节点内和节点间用于训✅练和推理预填充的高吞吐量内核
✅用于推理解码的低延迟内核
✅原生 FP8 调度支持
✅灵活的 GPU 资源控制,用于计算通信重叠

信息来源:DeepSeek 官方

CSDN App 扫码分享
分享
评论
3
打赏
  • 复制链接
  • 举报
下一条:
DeepSeek 开源第一天:FlashMLA用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列进行了优化,现已投入生产。✅BF16 支持✅分页 KV 缓存(块大小 64)✅H800上的内存限制为3000 GB/s,计算限制为580TFLOPS信息来源:deepseek 官方
立即登录