偶然发现了一个名为MInference的仓库。“现在，你可以-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_41070696

偶然发现了一个名为 MInference 的仓库。

“现在，你可以使用像 LLaMA-3-8B-1M、GLM-4-1M 这样的长上下文大语言模型在单个 A100 上以更快的速度处理 100 万上下文，并且精度更高，立即试用 MInference 1.0！”

“MInference 1.0 利用了大语言模型注意力的动态稀疏特性，展示了一些静态模式，从而加速了长上下文大语言模型的预填充。它首先离线确定每个头所属的稀疏模式，然后在线近似稀疏索引，并使用最佳自定义内核动态计算注意力。这种方法在 A100 上实现了预填充速度的最多 10 倍提升，同时保持了准确性。”

https://github.com/microsoft/MInference

CSDN App 扫码分享

分享

评论

11

复制链接
举报

下一条：

如何打造麦当劳的得来速：全AI，全本地化 https://medium.com/@learn-simplified/how-i-built-mcdonalds-drive-thru-all-ai-all-local-812260a0bc40最终结果https://www.youtube.com/watch?v=R7ekFRwrqhc&list=PLWQ_n2lpS5yyATPtr6dyWCblj7Y3HD_d3&index=5使用100% AI建立一个单人食品配送业务，每个细节都已详述