DeepSeek 开源第一天:FlashMLA用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列进行了优化,现已投入生产。✅BF16 支持✅分页 KV 缓存(块大小 64)✅H800上的内存限制为3000 GB/s,计算限制为580TFLOPS信息来源:deepseek 官方