热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41070696
51ELEC
2 年前
trueweixin_41070696

偶然发现了一个名为 MInference 的仓库。

“现在,你可以使用像 LLaMA-3-8B-1M、GLM-4-1M 这样的长上下文大语言模型在单个 A100 上以更快的速度处理 100 万上下文,并且精度更高,立即试用 MInference 1.0!”

“MInference 1.0 利用了大语言模型注意力的动态稀疏特性,展示了一些静态模式,从而加速了长上下文大语言模型的预填充。它首先离线确定每个头所属的稀疏模式,然后在线近似稀疏索引,并使用最佳自定义内核动态计算注意力。这种方法在 A100 上实现了预填充速度的最多 10 倍提升,同时保持了准确性。”

https://github.com/microsoft/MInference

CSDN App 扫码分享
分享
评论
11
  • 复制链接
  • 举报
下一条:
如何打造麦当劳的得来速:全AI,全本地化https://medium.com/@learn-simplified/how-i-built-mcdonalds-drive-thru-all-ai-all-local-812260a0bc40最终结果https://www.youtube.com/watch?v=R7ekFRwrqhc&list=PLWQ_n2lpS5yyATPtr6dyWCblj7Y3HD_d3&index=5使用100% AI建立一个单人食品配送业务,每个细节都已详述
立即登录