热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41334255
Learut
1 年前
trueweixin_41334255

在MacBook上实现了每秒1300多个token的处理速度

在MLX中实现了批量KV缓存,用于在Apple设备上进行快速的并行LLM推理。根据模型/精度/内存/批量大小,可以获得超过20倍的token处理速度提升。截图显示的是Gemma-2B在float16精度下处理325个批量提示的情况。

代码:
https://github.com/willccbb/mlx_parallm/tree/main
博客: https://willcb.com/blog/parallm/

CSDN App 扫码分享
分享
评论
12
  • 复制链接
  • 举报
下一条:
你知道吗,我们支持多种不同的机器人系统,每种系统都旨在应对各个行业中的独特挑战?探索 QNX 如何为您的机器人项目提供支持:https://bit.ly/3UvNdqy
立即登录