MATHPILE:一个高质量、大规模的数学语料库,29 GB,包含约 95 亿个代币。
涵盖从 K-12 到大学、研究生水平和数学竞赛的内容,包括高质量教科书、讲义、科学论文等。
提供详细的数据记录,包括数据集表格和质量注释,提高透明度并允许用户根据需要定制数据。
-数据来源和处理:数据最初来源于多个不同的数据源,总计大约 520 亿个令牌,占 2.2 TB 的数据量。
源数据包括 StackExchange、ProofWiki、Common Crawl、arXiv,以及其他来源。这些数据经过一系列严格的处理过程,包括数据预处理和预过滤、语言识别、清理和过滤,以及去重。
-MATHPILE 语料库:经过处理后,得到了一个以数学为中心的语料库,即 MATHPILE。这个语料库总计有 29 GB 的数据量,包含约 903,000 篇文档,以及大约 95 亿个令牌。
主要特点:
1、数学领域专注:MathPile 是专门为数学领域设计的,与通用或多语言焦点的语料库有明显区别。
2、多样性:MathPile 从广泛的来源汇集数据,包括教科书(包括讲义)、arXiv、维基百科、ProofWiki、StackExchange 和网页。它涵盖了适合 K-12、大学、研究生水平和数学竞赛的数学内容。特别是,项目发布了大量高质量教科书的显著收藏(约 0.19B 令牌)。
3、高质量:项目坚持“少即是多”的原则,即使在预训练阶段也相信数据质量胜过数量。项目的数据收集和处理努力包括复杂的预处理、预过滤、清洁、过滤和去重,确保语料库的高质量。
4、数据文档:为了增强透明度,提供详细的数据记录,包括数据集表格和质量注释,提高透明度并允许用户根据需要定制数据。如语言识别分数和符号到单词的比率。这为用户提供了根据其需要定制数据的灵活性。
项目地址:https://gair-nlp.github.io/MathPile/
论文:https://arxiv.org/abs/2312.17120
GitHub:https://github.com/GAIR-NLP/MathPile
数据集:https://huggingface.co/datasets/GAIR/MathPile
- 复制链接
- 举报