DocGenome: 一个开放的大规模科学文献基准,用于训练和测试多模态大语言模型通过使用定制的自动标注管道,构建了一个结构化的文档数据集,该数据集对来自arXiv的153个学科的50万篇科学文献进行了标注项目链接: https://unimodal4reasoning.github.io/DocGenome_page/摘要链接: https://arxiv.org/abs/2406.11633