Datacomp-LM (DCLM) 今天在 ICLM FOMO 研讨会上展示了。DCLM 是一个以数据为中心的大型语言模型基准。它也是目前最先进的开源大型语言模型和最先进的开放训练数据集。可能最重要的发现是,数据整理算法在 4 亿规模上工作并能预测更大规模(至少到 70 亿模型)的性能。这意味着我们可以通过在小规模上开发数据整理算法来进行数据整理科学研究,并进行推断。你不需要建造整艘船并把它扔进海里来检查它是否会浮。你可以建造一个微型船并在浴缸中测试。