DocGenome:一个开放的大规模科学文献基准，用于训练和-CSDN blink-领先的开发者技术社区

DataComp-LM：寻找新一代语言模型训练集- 提供了一个来自Common Crawl的240T令牌语料库- 使用他们过滤后的数据集训练一个语言模型，在自然语言理解任务上的表现相似，但计算量比Llama 3 8B少6.6倍项目链接：

https://www.datacomp.ai/dclm/

https://arxiv.org/abs/2406.11794