热门
最新
红包
立Flag
投票
同城
我的
发布
MaskLLM
大语言模型的可学习半结构化稀疏性
讨论:https://huggingface.co/papers/2409.17481
大语言模型(LLMs)以其庞大的参数数量著称,这通常会导致显著的冗余。本文介绍了MaskLLM,这是一种可学习的剪枝方法,用于在LLMs中建立半结构化(或“ N:M”)稀疏性,旨在减少推理期间的计算开销。与其开发新的重要性标准,MaskLLM通过Gumbel Softmax采样明确地将N:M模式建模为一个可学习的分布。这种方法有助于在大规模数据集上进行端到端训练,并提供两个显著优势:1)高质量掩码 - 我们的方法能有效扩展到大数据集并学习准确的掩码;2)可转移性 - 掩码分布的概率建模使稀疏性可以跨领域或任务进行迁移学习。我们在各种LLMs上评估了MaskLLM使用2:4稀疏性,包括LLaMA-2、Nemotron-4和GPT-3,规模从843M到15B参数不等,实验结果显示相比于最先进的方法有显著的改进。例如,领先的方法在Wikitext上的困惑度(PPL)达到10或更高,而密集模型的困惑度为5.12 PPL,但MaskLLM仅通过学习冻结权重的掩码就达到了显著更低的6.72 PPL。此外,MaskLLM的可学习特性允许为下游任务或领域的2:4稀疏性应用定制掩码而无损失。
CSDN App 扫码分享
评论
10
- 复制链接
- 举报