Meta Multi-Token Prediction通过多Token预测来构建更好、更快的大语言模型(LLM)。这种方法训练语言模型一次预测多个未来的词语,而不是传统的逐词预测。这不仅提升了模型的能力和训练效率,还提高了速度。