2024-09-19,由北京人工智能研究院(BAAI)创建的CCI3.0-HQ数据集,是一个通过新颖的两阶段混合过滤流程显著提升数据质量的高质量子集。这个数据集的意义在于,它不仅提高了数据的纯净度,还通过实验表明,使用该数据集训练的模型在多个基准测试中取得了优于现有中文数据集的性能,为中文语言模型的发展提供了重要的资源。数据集地址:https://www.selectdataset.com/dataset/50bbdd874ee2ba632741525f4adf7b05