我们可以通过使用SLERP合并连续的两个令牌来显著加速LLMs下一个令牌的生成,从而减少执行完整预测所需的计算能力。通过SLERP加速LLM推理的令牌合并,作者 @安婼惜 https://buff.ly/3xGK5Ae