我们通过使用@小禧xx的Flash Attention提高了嵌入过程的推理吞吐量。您可以在这里找到Flash Attention的仓库:https://github.com/Dao-AILab/flash-attention