热门

最新

红包

立Flag

投票

同城

我的

发布
devhero
op7418
2 年前
truedevhero

项目地址:https://github.com/Dao-AILab/flash-attention

CSDN App 扫码分享
分享
评论
8
  • 复制链接
  • 举报
下一条:
新的 Transformer 加速技术 FlashAttention-3 发布。LLM 推理速度和成本又要大幅下降!FlashAttention-3 相较于之前的 FlashAttention 在各个方面都有非常大的提升:更高效的 GPU 利用率:大型语言模型的训练和运行 (LLMs) 比以前的版本快1.5-2 倍。较低精度下的更好性能:FlashAttention-3 可以使用较低精度的数字 (FP8),同时保持准确性。能够在 LLMs 中使用更长的上下文:通过加速注意力机制,FlashAttention-3 使 AI 模型能够更有效地处理更长的文本片段。
立即登录