热门
最新
红包
立Flag
投票
同城
我的
发布
偶然发现了一个名为 MInference 的仓库。
“现在,你可以使用像 LLaMA-3-8B-1M、GLM-4-1M 这样的长上下文大语言模型在单个 A100 上以更快的速度处理 100 万上下文,并且精度更高,立即试用 MInference 1.0!”
“MInference 1.0 利用了大语言模型注意力的动态稀疏特性,展示了一些静态模式,从而加速了长上下文大语言模型的预填充。它首先离线确定每个头所属的稀疏模式,然后在线近似稀疏索引,并使用最佳自定义内核动态计算注意力。这种方法在 A100 上实现了预填充速度的最多 10 倍提升,同时保持了准确性。”
https://github.com/microsoft/MInference
CSDN App 扫码分享
评论
11
- 复制链接
- 举报