看看 Tensorrt-LLM 的 XQA 内核如何在相同的延迟下提供高达2.4倍的吞吐量。* 在生成过程中优化 MQA 和 GQA* 优化波束搜索* 以相同的延迟预算提高吞吐量* 用张量核加速;减少数据加载和转换