看看Tensorrt-LLM的XQA内核如何在相同的延迟下提-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_45890358

看看 Tensorrt-LLM 的 XQA 内核如何在相同的延迟下提供高达2.4倍的吞吐量。
* 在生成过程中优化 MQA 和 GQA
* 优化波束搜索
* 以相同的延迟预算提高吞吐量
* 用张量核加速；减少数据加载和转换

人工智能时代

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条动态