热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
2 年前
truetechsavvyarankomatsuzaki

我们通过使用@小禧xx的Flash Attention提高了嵌入过程的推理吞吐量。您可以在这里找到Flash Attention的仓库:https://github.com/Dao-AILab/flash-attention

CSDN App 扫码分享
分享
评论
74
  • 复制链接
  • 举报
下一条:
我们使用了由@pakerface的@BMY顺其自然维护的Sentence Transformers库,以在多个GPU上分布式处理嵌入过程。你可以在这里找到一个关于如何使用多进程进行嵌入的示例:https://github.com/UKPLab/sentence-transformers/blob/66e0ee30843dd411c64f37f65447bb38c7bf857a/examples/applications/computing-embeddings/computing_embeddings_multi_gpu.py
立即登录