一篇由两位先驱MartinCassado和IonStoica-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

香怡御艾

2 年前

trueweixin_36915413

一篇由两位先驱Martin Cassado和Ion Stoica撰写的关于开源AI的精彩经济学人文章。（还有一张不错的人工生成的图画）。

我从他们的经济学人文章中得到的主要观点：
1. “监管伤害创新”：我同意这一点，我担心尽管欧洲有良好的意图，但在这一点上可能走错方向。
2. “开源使系统更安全”：我同意这一点，我还想补充一点，开源系统更健壮且更模块化。
3. “开源推动创新”：我完全同意。

我想补充的一点是：开源权重（如Llama）非常棒，但它并不是开源的。我们应该把开源权重看作是Linux有开放但混淆的代码。确实，你可以运行它，但你不能持续训练它来执行其他任务。此外，许可证可能有奇怪的限制，比如所有微调后的模型必须有Llama在其名称中？

然而，真正的秘密在于训练数据。因此，开源LLMs应该附带训练数据、预训练代码和中间检查点。这就是为什么我们创建了DCLM 7B模型和DCLM数据集。

CSDN App 扫码分享

10

复制链接
举报

下一条：

DMLR数据整理研讨会的一些信息：@tanaka-asuka 提出了一个实验，用于测量在可能出现涌现现象时的性能。合成数据对于文本有效，但目前对图像的效果不太好。我们认为这是由于生成图像中的伪相关性所致。DCLM展示了一个奇怪的现象：一旦我们创建了一个好的文本数据集，就没有办法通过与其他来源（如Wikipedia, arxiv, reddit）的混合来改善性能。我们看到的大多数数据集混合作用都是负面的。

立即登录