jbetker是OpenAI的一名员工的网名,他发表于2023年6月10日的一篇博客,非常短,但是观点却非常让人震撼。
文章翻译如下:
我在OpenAI已经快一年了。在那段时间里,我训练了很多生成模型。当我花了这些小时观察调整各种模型配置和超参数的效果时,有一件事让我印象深刻,那就是所有训练运行之间的相似之处。
我越来越清楚,这些模型确实在以令人难以置信的程度逼近他们的数据集。这意味着他们不仅学会了成为狗或猫意味着什么,还学会了无关紧要的分布之间的间隙频率,这些频率并不重要,比如人类可能会拍摄哪些照片或人类通常写下的单词。
这表现为——在同一数据集上训练足够长的时间,几乎每个具有足够权重和训练时间的模型都收敛到同一点。足够大的扩散 conv-unet 产生与ViT生成器相同的图像。AR采样产生与扩散相同的图像。
这是一个令人惊讶的观察结果!这意味着模型行为不是由体系结构、超参数或优化器选择决定的。它由您的数据集决定,仅此而已。其他一切都是有效交付计算以近似该数据集的手段。
然后,当你提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时,你指的不是模型权重,而是数据集。