流行的扩展规律只考虑了训练成本,而忽略了部署成本。在2024年@大麦的Eddy会议上,@Hvyntivka Mosina Mosaic AI研究人员Nikhil Sardana、@Damien丶和@隐隐最靓的崽提出了一种修改后的扩展规律,该规律同时考虑了训练和推理的成本,并通过实验演示了如何“过度训练”的大型语言模型(LLM)可以成为最佳选择:https://www.databricks.com/blog/how-long-should-you-train-your-language-model