热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40912980
exploit-cat
1 年前
trueweixin_40912980

Q-GaLore 发布:一种内存高效的预训练和微调机器学习模型方法

来自德克萨斯大学奥斯汀分校、萨里大学、牛津大学、加州理工学院和Meta AI的研究人员推出了Q-GaLore,以进一步减少内存消耗并使大语言模型训练更加可及。Q-GaLore结合了量化和低秩投影,显著增强了内存效率。这种方法基于两个关键观察:梯度子空间表现出多样性特征,一些层在训练早期稳定,而其他层则频繁变化;投影矩阵对低位数量化具有很高的抗性。通过利用这些见解,Q-GaLore基于收敛统计自适应地更新梯度子空间,在减少SVD操作次数的同时维持性能。模型权重保持在INT8格式,投影矩阵为INT4格式,从而大幅节省内存。

全文链接:
https://www.marktechpost.com/2024/07/13/q-galore-released-a-memory-efficient-training-approach-for-pre-training-and-fine-tuning-machine-learning-models/

论文: https://arxiv.org/abs/2407.08296

GitHub: https://github.com/VITA-Group/Q-GaLore

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
本周:➡️教育、生产力和➡️联合国教科文组织和欧盟培训法官➡️欧盟更新AI责任的法律框架➡️AI在软件项目规划中的整合还有更多!https://swisscognitive.ch/?p=125748
立即登录