在MacBook上实现了每秒1300多个token的处理速度-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_41334255

在MacBook上实现了每秒1300多个token的处理速度

在MLX中实现了批量KV缓存，用于在Apple设备上进行快速的并行LLM推理。根据模型/精度/内存/批量大小，可以获得超过20倍的token处理速度提升。截图显示的是Gemma-2B在float16精度下处理325个批量提示的情况。

代码: https://github.com/willccbb/mlx_parallm/tree/main
博客: https://willcb.com/blog/parallm/

CSDN App 扫码分享

分享

评论

12

复制链接
举报

下一条：

你知道吗，我们支持多种不同的机器人系统，每种系统都旨在应对各个行业中的独特挑战？探索 QNX 如何为您的机器人项目提供支持：https://bit.ly/3UvNdqy