MINT-1T:将开源多模态数据扩展至10倍:一个拥有一万亿标记的多模态数据集- 包含1万亿文本标记和30亿张图片,是现有开源数据集的10倍规模扩展- 其表现可与之前领先的数据集OBELICS训练的模型相媲美https://arxiv.org/abs/2406.11271