PyramidInfer:用于高吞吐量LLM推理的金字塔KV缓存压缩与Accelerate相比,提高了2.2倍的吞吐量,并在KV缓存中实现了超过54%的GPU内存减少https://arxiv.org/abs/2405.12532