热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
1 年前
truetechsavvyarankomatsuzaki

MINT-1T:将开源多模态数据扩展至10倍:一个拥有一万亿标记的多模态数据集

- 包含1万亿文本标记和30亿张图片,是现有开源数据集的10倍规模扩展
- 其表现可与之前领先的数据集OBELICS训练的模型相媲美

https://arxiv.org/abs/2406.11271

CSDN App 扫码分享
分享
评论
8
  • 复制链接
  • 举报
下一条:
DocGenome: 一个开放的大规模科学文献基准,用于训练和测试多模态大语言模型通过使用定制的自动标注管道,构建了一个结构化的文档数据集,该数据集对来自arXiv的153个学科的50万篇科学文献进行了标注项目链接: https://unimodal4reasoning.github.io/DocGenome_page/摘要链接: https://arxiv.org/abs/2406.11633
立即登录