DMLR数据整理研讨会的一些信息：提出了一个实验，用于测量在-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_36915413

DMLR数据整理研讨会的一些信息：@tanaka-asuka 提出了一个实验，用于测量在可能出现涌现现象时的性能。

合成数据对于文本有效，但目前对图像的效果不太好。我们认为这是由于生成图像中的伪相关性所致。

DCLM展示了一个奇怪的现象：一旦我们创建了一个好的文本数据集，就没有办法通过与其他来源（如Wikipedia, arxiv, reddit）的混合来改善性能。我们看到的大多数数据集混合作用都是负面的。

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

我们过滤后的数据集仅占240T Common crawl抓取原始大池的1.4%，并且质量非常高。