热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_36915413
香怡御艾
2 年前
trueweixin_36915413

我们过滤后的数据集仅占240T Common crawl抓取原始大池的1.4%,并且质量非常高。

CSDN App 扫码分享
分享
1
12
  • 复制链接
  • 举报
下一条:
我们发布了Docmatix,这是一个巨大的数据集,用于增强文档理解的视觉-语言模型https://huggingface.co/blog/docmatix
立即登录