一篇由两位先驱Martin Cassado和Ion Stoica撰写的关于开源AI的精彩经济学人文章。(还有一张不错的人工生成的图画)。
我从他们的经济学人文章中得到的主要观点:
1. “监管伤害创新”:我同意这一点,我担心尽管欧洲有良好的意图,但在这一点上可能走错方向。
2. “开源使系统更安全”:我同意这一点,我还想补充一点,开源系统更健壮且更模块化。
3. “开源推动创新”:我完全同意。
我想补充的一点是:开源权重(如Llama)非常棒,但它并不是开源的。我们应该把开源权重看作是Linux有开放但混淆的代码。确实,你可以运行它,但你不能持续训练它来执行其他任务。此外,许可证可能有奇怪的限制,比如所有微调后的模型必须有Llama在其名称中?
然而,真正的秘密在于训练数据。因此,开源LLMs应该附带训练数据、预训练代码和中间检查点。这就是为什么我们创建了DCLM 7B模型和DCLM数据集。