热门
最新
红包
立Flag
投票
同城
我的
发布
香怡御艾
2 年前
trueweixin_36915413
我们过滤后的数据集仅占240T Common crawl抓取原始大池的1.4%,并且质量非常高。
下一条:
我们发布了Docmatix,这是一个巨大的数据集,用于增强文档理解的视觉-语言模型
https://huggingface.co/blog/docmatix
立即登录