这篇来自苹果的AI论文介绍了AdEMAMix:一种利用双指数移动平均数来增强梯度效率并改进大规模模型训练性能的新型优化方法
来自苹果和EPFL的研究人员提出了一种新的解决方案,即AdEMAMix优化器。他们的方法通过结合两种不同的EMA(一个快速变化,一个慢速变化)来扩展传统的Adam优化器。这种方法使优化器在响应最新更新的需求和保留现有优化器经常丢弃的有价值的旧梯度之间实现平衡。这种双EMA系统是AdEMAMix独有的,它使大规模模型的训练更高效,减少了训练所需的总token数,同时取得了相当或更好的结果。
AdEMAMix优化器引入了第二个EMA来捕捉较旧的梯度,而不失去原始EMA提供的反应性。具体来说,AdEMAMix维护一个快速移动的EMA,优先考虑最近的梯度,同时跟踪一个较慢移动的EMA,该EMA保留训练过程早期的信息。例如,在RedPajama数据集上训练一个13亿参数的语言模型时,研究人员发现,AdEMAMix可以用1010亿个token达到AdamW模型用1970亿个token训练的性能,这减少了约95%的token使用量。这种效率的提升转化为更快的收敛速度和通常更好的极小值,使得模型可以以更少的计算资源达到更优的性能。
阅读我们的完整评论:https://www.marktechpost.com/2024/09/08/this-ai-paper-from-apple-introduces-ademamix-a-novel-optimization-approach-leveraging-dual-exponential-moving-averages-to-enhance-gradient-efficiency-and-improve-large-scale-model-training-performanc/
论文链接:https://arxiv.org/abs/2409.03137
@Hxluuu @莫笑傅立叶
- 复制链接
- 举报