热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
1 年前
truetechsavvyarankomatsuzaki

PyramidInfer:用于高吞吐量LLM推理的金字塔KV缓存压缩

与Accelerate相比,提高了2.2倍的吞吐量,并在KV缓存中实现了超过54%的GPU内存减少

https://arxiv.org/abs/2405.12532

CSDN App 扫码分享
分享
评论
12
  • 复制链接
  • 举报
下一条:
通过跨层注意力减少变压器键值缓存大小显示在不损失性能的情况下,可以在相邻层之间共享键和值头https://arxiv.org/abs/2405.12981
立即登录