发现:我们的最佳模型DCLM 7B在仅使用2T token训练的情况下达到了64 MMLU。这比Llama2模型更好,而Llama3 8B则在训练中使用了6倍以上的token(即由于更好的数据管理,效率提高了7倍!)。DCLM 1B也是我们认为的最佳小模型,且没有通过蒸馏大模型来训练。DCLM工作流程:1. 我们给你一堆文本(来自CommonCrawl的混乱文本,即互联网)2. 你运行你的数据管理算法并选择一个子集。3. 你按下一个按钮,一个模型就被训练和评估。DataComp的关键理念是,除了你的算法管理出来的数据集外,一切都是固定的。DCLM允许研究人员试验从400M到7B参数的模型。经验教训:1. 数据管理起着巨大的作用。去重和数据清洗非常重要。2. 人类在决定哪些段落适合作为预训练数据方面非常糟糕。我们发现这一点非常令人惊讶。3. 我们发现的最佳数据过滤器是一个在指令调整和CommonCrawl上训练的FastText分类器。这超过了我们尝试的所有其他方法!4. 一旦你创建了一个高质量的过滤数据集,没有任何混合方法似乎能进一步改进,这令人惊讶。