Meta提出了一个问题:Flash Attention是否稳定?研究发现,在孤立的前向传播过程中测量时,与基线注意力(Baseline Attention)相比,Flash Attention在BF16下的数值偏差大约是一个数量级。https://arxiv.org/abs/2405.02803