又一篇的爆料。软件开发正在发生变化，如果你还没有注意到他提到-CSDN blink-领先的开发者技术社区

在MacBook上实现了每秒1300多个token的处理速度在MLX中实现了批量KV缓存，用于在Apple设备上进行快速的并行LLM推理。根据模型/精度/内存/批量大小，可以获得超过20倍的token处理速度提升。截图显示的是Gemma-2B在float16精度下处理325个批量提示的情况。代码:

https://github.com/willccbb/mlx_parallm/tree/main

https://willcb.com/blog/parallm/