热门
最新
红包
立Flag
投票
同城
我的
发布
EMOVA
赋予语言模型“看、听、说”充满生动情感的能力
讨论: https://huggingface.co/papers/2409.18042
GPT-4o,一个支持多模态的模型,能够进行带有多种情感和语调的语音对话,标志着多模态基础模型的一个里程碑。然而,在开源社区中,通过公开数据赋予大型语言模型端到端的图像、文本和语音生成能力仍然具有挑战性。现有的视觉-语言模型依赖外部工具进行语音处理,而语音-语言模型仍然缺乏甚至没有视觉理解能力。为了解决这一差距,我们提出了EMOVA(全情感语音助手),赋予大型语言模型端到端的语音能力,同时保持领先的视觉-语言性能。通过语义-声学解耦的语音分词器,我们惊讶地发现,多模态对齐可以进一步增强视觉-语言和语音能力,相比于相应的双模态对齐模型。此外,我们还提出了一个轻量级的风格模块,用于灵活的语音风格控制(例如,情感和音高)。EMOVA首次在视觉-语言和语音基准测试中实现了最先进的性能,并且支持带有生动情感的多模态口语对话。
CSDN App 扫码分享
1
22
- 复制链接
- 举报
下一条:
MaskLLM大语言模型的可学习半结构化稀疏性讨论:https://huggingface.co/papers/2409.17481大语言模型(LLMs)以其庞大的参数数量著称,这通常会导致显著的冗余。本文介绍了MaskLLM,这是一种可学习的剪枝方法,用于在LLMs中建立半结构化(或“ N:M”)稀疏性,旨在减少推理期间的计算开销。与其开发新的重要性标准,MaskLLM通过Gumbel Softmax采样明确地将N:M模式建模为一个可学习的分布。这种方法有助于在大规模数据集上进行端到端训练,并提供两个显著优势:1)高质量掩码 - 我们的方法能有效扩展到大数据集并学习准确的掩码;2)可转移性 - 掩码分布的概率建模使稀疏性可以跨领域或任务进行迁移学习。我们在各种LLMs上评估了MaskLLM使用2:4稀疏性,包括LLaMA-2、Nemotron-4和GPT-3,规模从843M到15B参数不等,实验结果显示相比于最先进的方法有显著的改进。例如,领先的方法在Wikitext上的困惑度(PPL)达到10或更高,而密集模型的困惑度为5.12 PPL,但MaskLLM仅通过学习冻结权重的掩码就达到了显著更低的6.72 PPL。此外,MaskLLM的可学习特性允许为下游任务或领域的2:4稀疏性应用定制掩码而无损失。