在MacBook上实现了每秒1300多个token的处理速度在MLX中实现了批量KV缓存,用于在Apple设备上进行快速的并行LLM推理。根据模型/精度/内存/批量大小,可以获得超过20倍的token处理速度提升。截图显示的是Gemma-2B在float16精度下处理325个批量提示的情况。代码: https://github.com/willccbb/mlx_parallm/tree/main 博客: https://willcb.com/blog/parallm/