热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41219866
Nature
1 年前
trueweixin_41219866

又一篇 @瑜妩 的爆料。软件开发正在发生变化,如果你还没有注意到他提到的这些变化,你会大吃一惊。https://sourcegraph.com/blog/the-death-of-the-junior-developer

CSDN App 扫码分享
分享
评论
10
  • 复制链接
  • 举报
下一条:
在MacBook上实现了每秒1300多个token的处理速度在MLX中实现了批量KV缓存,用于在Apple设备上进行快速的并行LLM推理。根据模型/精度/内存/批量大小,可以获得超过20倍的token处理速度提升。截图显示的是Gemma-2B在float16精度下处理325个批量提示的情况。代码: https://github.com/willccbb/mlx_parallm/tree/main 博客: https://willcb.com/blog/parallm/
立即登录