我们通过使用的FlashAttention提高了嵌入过程的推-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyarankomatsuzaki

我们通过使用 @小禧xx的Flash Attention提高了嵌入过程的推理吞吐量。您可以在这里找到Flash Attention的仓库：https://github.com/Dao-AILab/flash-attention

CSDN App 扫码分享

分享

评论

74

复制链接
举报

下一条：

我们使用了由@pakerface的@BMY顺其自然维护的Sentence Transformers库，以在多个GPU上分布式处理嵌入过程。你可以在这里找到一个关于如何使用多进程进行嵌入的示例：https://github.com/UKPLab/sentence-transformers/blob/66e0ee30843dd411c64f37f65447bb38c7bf857a/examples/applications/computing-embeddings/computing_embeddings_multi_gpu.py