在探索Mixtral性能时,我们有三个目标:1️⃣ 将第一个token的时间控制在200毫秒以下2️⃣ 达到每秒超过50个感知token3️⃣ 通过在单个A100上运行模型来节省成本使用TensorRT-LLM并将模型量化为int8,我们可以实现所有这三个目标。💪