TensorRT-LLM API应用 — 加速大模型推理利用简单易用的TensorRT-LLM API与NVIDIA GPU算力,亚马逊将其在生成式Ai工具的推理效率提高了2倍,并将推理延迟减少了3倍。