PyramidInfer：用于高吞吐量LLM推理的金字塔KV-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

truetechsavvyarankomatsuzaki

PyramidInfer：用于高吞吐量LLM推理的金字塔KV缓存压缩

与Accelerate相比，提高了2.2倍的吞吐量，并在KV缓存中实现了超过54%的GPU内存减少

 https://arxiv.org/abs/2405.12532

CSDN App 扫码分享

分享

评论

12

复制链接
举报

下一条：

通过跨层注意力减少变压器键值缓存大小显示在不损失性能的情况下，可以在相邻层之间共享键和值头 https://arxiv.org/abs/2405.12981