jbetker是OpenAI的一名员工的网名，他发表于202-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truebylander

jbetker是OpenAI的一名员工的网名，他发表于2023年6月10日的一篇博客，非常短，但是观点却非常让人震撼。

文章翻译如下：
我在OpenAI已经快一年了。在那段时间里，我训练了很多生成模型。当我花了这些小时观察调整各种模型配置和超参数的效果时，有一件事让我印象深刻，那就是所有训练运行之间的相似之处。

我越来越清楚，这些模型确实在以令人难以置信的程度逼近他们的数据集。这意味着他们不仅学会了成为狗或猫意味着什么，还学会了无关紧要的分布之间的间隙频率，这些频率并不重要，比如人类可能会拍摄哪些照片或人类通常写下的单词。

这表现为——在同一数据集上训练足够长的时间，几乎每个具有足够权重和训练时间的模型都收敛到同一点。足够大的扩散 conv-unet 产生与ViT生成器相同的图像。AR采样产生与扩散相同的图像。

这是一个令人惊讶的观察结果！这意味着模型行为不是由体系结构、超参数或优化器选择决定的。它由您的数据集决定，仅此而已。其他一切都是有效交付计算以近似该数据集的手段。

然后，当你提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时，你指的不是模型权重，而是数据集。

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：