FastGen：在不影响大型语言模型质量的情况下削减GPU内-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_40912980

FastGen：在不影响大型语言模型质量的情况下削减GPU内存成本

伊利诺伊大学厄巴纳-香槟分校和微软的研究人员提出了一种名为FastGen的高效技术，能够在不损失可见质量的情况下增强大型语言模型（LLMs）的推理效率，该技术使用轻量级模型分析和自适应键值缓存。FastGen通过自适应方式在注意力头上清除长距离上下文，由KV缓存构建来执行。此外，它采用轻量级注意力分析进行部署，该分析已用于指导自适应KV缓存的构建，无需资源密集型的微调或重新训练。FastGen能够在生成质量损失可以忽略不计的情况下减少GPU内存的使用。

快速阅读：https://www.marktechpost.com/2024/05/12/fastgen-cutting-gpu-memory-costs-without-compromising-on-llm-quality/

论文：https://arxiv.org/abs/2310.01801

CSDN App 扫码分享

分享

评论

8

复制链接
举报

下一条：

任时光流转，岁月变迁，不抱怨，不言苦，不忧伤，不认输，安静生活，早安~