Flash Attention 3 发布了,在长上下文长度下具有更快和更好的效率,H100s 的利用率从 35% 增加到 75%。此外,在 FP8 基准测试中速度提升了 1.5 倍到 2 倍,误差率更低,达到了 2.6 倍!@小禧xx 和团队的出色工作。