关于微调与扩展的问题经常出现 https://arxiv.org/abs/2402.17193这篇文章有点难读,但显示了一个乘法关系:扩展 x 预训练。非常有趣,在这种设置下,模型大小 > 代币数。像llama风格的过度训练没有免费的午餐吗?