DataComp-LM:寻找新一代语言模型训练集- 提供了一个来自Common Crawl的240T令牌语料库- 使用他们过滤后的数据集训练一个语言模型,在自然语言理解任务上的表现相似,但计算量比Llama 3 8B少6.6倍项目链接:https://www.datacomp.ai/dclm/摘要链接:https://arxiv.org/abs/2406.11794