热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
1 年前
truetechsavvyarankomatsuzaki

DocGenome: 一个开放的大规模科学文献基准,用于训练和测试多模态大语言模型

通过使用定制的自动标注管道,构建了一个结构化的文档数据集,该数据集对来自arXiv的153个学科的50万篇科学文献进行了标注

项目链接:
https://unimodal4reasoning.github.io/DocGenome_page/
摘要链接: https://arxiv.org/abs/2406.11633

CSDN App 扫码分享
分享
评论
8
  • 复制链接
  • 举报
下一条:
DataComp-LM:寻找新一代语言模型训练集- 提供了一个来自Common Crawl的240T令牌语料库- 使用他们过滤后的数据集训练一个语言模型,在自然语言理解任务上的表现相似,但计算量比Llama 3 8B少6.6倍项目链接:https://www.datacomp.ai/dclm/摘要链接:https://arxiv.org/abs/2406.11794
立即登录