很高兴看到我们的扩展观察结果得到了他人的确认:“扩展了Mei等人[2024]的发现,我们观察到,对于所有研究的方法,较小的模型经过更长时间的训练往往会超过较大的模型。”这是他们的论文:https://arxiv.org/abs/2405.13218以及我们的: