MaskLLM大语言模型的可学习半结构化稀疏性讨论：http-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

MaskLLM

大语言模型的可学习半结构化稀疏性

讨论：https://huggingface.co/papers/2409.17481

大语言模型（LLMs）以其庞大的参数数量著称，这通常会导致显著的冗余。本文介绍了MaskLLM，这是一种可学习的剪枝方法，用于在LLMs中建立半结构化（或“ N:M”）稀疏性，旨在减少推理期间的计算开销。与其开发新的重要性标准，MaskLLM通过Gumbel Softmax采样明确地将N:M模式建模为一个可学习的分布。这种方法有助于在大规模数据集上进行端到端训练，并提供两个显著优势：1）高质量掩码 - 我们的方法能有效扩展到大数据集并学习准确的掩码；2）可转移性 - 掩码分布的概率建模使稀疏性可以跨领域或任务进行迁移学习。我们在各种LLMs上评估了MaskLLM使用2:4稀疏性，包括LLaMA-2、Nemotron-4和GPT-3，规模从843M到15B参数不等，实验结果显示相比于最先进的方法有显著的改进。例如，领先的方法在Wikitext上的困惑度（PPL）达到10或更高，而密集模型的困惑度为5.12 PPL，但MaskLLM仅通过学习冻结权重的掩码就达到了显著更低的6.72 PPL。此外，MaskLLM的可学习特性允许为下游任务或领域的2:4稀疏性应用定制掩码而无损失。

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

机器人看机器人做使用单目4D重建模仿关节对象操作人类可以通过简单地观察他人来学习操作新对象；如果为机器人提供从这种演示中学习的能力，将为指定新行为提供一种自然界面。本文开发了机器人看机器人做（RSRD），一种从单目RGB人类演示和单个静态多视图对象扫描学习模仿关节对象操作的方法。我们首先提出了4D可微分部分模型（4D-DPM），这是一种通过单目视频和可微分渲染恢复3D部分运动的方法。这种通过分析合成的方法使用基于部分的特征场在迭代优化中，使得使用几何正则化器来仅从单个视频中恢复3D运动成为可能。给定这种4D重建，机器人通过计划双手臂运动来复制对象轨迹，从而诱导演示的对象部分运动。通过将演示表示为基于部分的轨迹，RSRD专注于复制演示的预期行为，同时考虑机器人的自身形态限制，而不是试图复制手的运动。我们在具有真实标注的3D部分轨迹的地面实况上评估了4D-DPM的3D跟踪精度，并在双臂YuMi机器人上对9个对象进行每个对象10次试验，以评估RSRD的物理执行性能。RSRD的每个阶段平均达到87%的成功率，总的端到端成功率在90次试验中达到60%。值得注意的是，这是仅使用从大规模预训练视觉模型中提取的特征场实现的——没有任何特定任务的训练、微调、数据集收集或标注。