热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
9
- 复制链接
- 举报
下一条:
Q-GaLore 发布:一种内存高效的预训练和微调机器学习模型方法来自德克萨斯大学奥斯汀分校、萨里大学、牛津大学、加州理工学院和Meta AI的研究人员推出了Q-GaLore,以进一步减少内存消耗并使大语言模型训练更加可及。Q-GaLore结合了量化和低秩投影,显著增强了内存效率。这种方法基于两个关键观察:梯度子空间表现出多样性特征,一些层在训练早期稳定,而其他层则频繁变化;投影矩阵对低位数量化具有很高的抗性。通过利用这些见解,Q-GaLore基于收敛统计自适应地更新梯度子空间,在减少SVD操作次数的同时维持性能。模型权重保持在INT8格式,投影矩阵为INT4格式,从而大幅节省内存。全文链接: https://www.marktechpost.com/2024/07/13/q-galore-released-a-memory-efficient-training-approach-for-pre-training-and-fine-tuning-machine-learning-models/论文: https://arxiv.org/abs/2407.08296GitHub: https://github.com/VITA-Group/Q-GaLore