这些轻量级的Llama模型预训练使用了多达9万亿的tokens。然而,对于Llama 1B和3B,其中的关键之一是使用剪枝和蒸馏技术来构建更小且性能更优的模型,这些模型从强大的教师模型中获取信息。剪枝使我们能够在尽可能恢复知识和性能的情况下,缩小现有Llama模型的尺寸。知识蒸馏使用一个更大的网络来将知识传递给一个较小的网络。