热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40912980
exploit-cat
1 年前
trueweixin_40912980

FastGen:在不影响大型语言模型质量的情况下削减GPU内存成本

伊利诺伊大学厄巴纳-香槟分校和微软的研究人员提出了一种名为FastGen的高效技术,能够在不损失可见质量的情况下增强大型语言模型(LLMs)的推理效率,该技术使用轻量级模型分析和自适应键值缓存。FastGen通过自适应方式在注意力头上清除长距离上下文,由KV缓存构建来执行。此外,它采用轻量级注意力分析进行部署,该分析已用于指导自适应KV缓存的构建,无需资源密集型的微调或重新训练。FastGen能够在生成质量损失可以忽略不计的情况下减少GPU内存的使用。

快速阅读:
https://www.marktechpost.com/2024/05/12/fastgen-cutting-gpu-memory-costs-without-compromising-on-llm-quality/

论文:https://arxiv.org/abs/2310.01801

CSDN App 扫码分享
分享
评论
8
  • 复制链接
  • 举报
下一条:
任时光流转,岁月变迁,不抱怨,不言苦,不忧伤,不认输,安静生活,早安~
立即登录