更多信息请见https://www.datacomp.ai/-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_36915413

更多信息请见
 https://www.datacomp.ai/dclm/
祝贺整个DCLM团队，特别是@甄景贤 @噜噜噜冰 @白公的领导力。

CSDN App 扫码分享

分享

评论

11

复制链接
举报

下一条：

发现：我们的最佳模型DCLM 7B在仅使用2T token训练的情况下达到了64 MMLU。这比Llama2模型更好，而Llama3 8B则在训练中使用了6倍以上的token（即由于更好的数据管理，效率提高了7倍！）。DCLM 1B也是我们认为的最佳小模型，且没有通过蒸馏大模型来训练。DCLM工作流程：1. 我们给你一堆文本（来自CommonCrawl的混乱文本，即互联网）2. 你运行你的数据管理算法并选择一个子集。3. 你按下一个按钮，一个模型就被训练和评估。DataComp的关键理念是，除了你的算法管理出来的数据集外，一切都是固定的。DCLM允许研究人员试验从400M到7B参数的模型。经验教训：1. 数据管理起着巨大的作用。去重和数据清洗非常重要。2. 人类在决定哪些段落适合作为预训练数据方面非常糟糕。我们发现这一点非常令人惊讶。3. 我们发现的最佳数据过滤器是一个在指令调整和CommonCrawl上训练的FastText分类器。这超过了我们尝试的所有其他方法！4. 一旦你创建了一个高质量的过滤数据集，没有任何混合方法似乎能进一步改进，这令人惊讶。