热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_45890358
nvdev
1 年前
trueweixin_45890358

看看 Tensorrt-LLM 的 XQA 内核如何在相同的延迟下提供高达2.4倍的吞吐量。
* 在生成过程中优化 MQA 和 GQA
* 优化波束搜索
* 以相同的延迟预算提高吞吐量
* 用张量核加速;减少数据加载和转换

人工智能时代
CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条动态
立即登录