EMOVA赋予语言模型“看、听、说”充满生动情感的能力讨论:-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

_akhaliq

2 年前

truetechsavvyak

EMOVA

赋予语言模型“看、听、说”充满生动情感的能力

讨论: https://huggingface.co/papers/2409.18042

GPT-4o，一个支持多模态的模型，能够进行带有多种情感和语调的语音对话，标志着多模态基础模型的一个里程碑。然而，在开源社区中，通过公开数据赋予大型语言模型端到端的图像、文本和语音生成能力仍然具有挑战性。现有的视觉-语言模型依赖外部工具进行语音处理，而语音-语言模型仍然缺乏甚至没有视觉理解能力。为了解决这一差距，我们提出了EMOVA（全情感语音助手），赋予大型语言模型端到端的语音能力，同时保持领先的视觉-语言性能。通过语义-声学解耦的语音分词器，我们惊讶地发现，多模态对齐可以进一步增强视觉-语言和语音能力，相比于相应的双模态对齐模型。此外，我们还提出了一个轻量级的风格模块，用于灵活的语音风格控制（例如，情感和音高）。EMOVA首次在视觉-语言和语音基准测试中实现了最先进的性能，并且支持带有生动情感的多模态口语对话。

下一条：

MaskLLM大语言模型的可学习半结构化稀疏性讨论：https://huggingface.co/papers/2409.17481大语言模型（LLMs）以其庞大的参数数量著称，这通常会导致显著的冗余。本文介绍了MaskLLM，这是一种可学习的剪枝方法，用于在LLMs中建立半结构化（或“ N:M”）稀疏性，旨在减少推理期间的计算开销。与其开发新的重要性标准，MaskLLM通过Gumbel Softmax采样明确地将N:M模式建模为一个可学习的分布。这种方法有助于在大规模数据集上进行端到端训练，并提供两个显著优势：1）高质量掩码 - 我们的方法能有效扩展到大数据集并学习准确的掩码；2）可转移性 - 掩码分布的概率建模使稀疏性可以跨领域或任务进行迁移学习。我们在各种LLMs上评估了MaskLLM使用2:4稀疏性，包括LLaMA-2、Nemotron-4和GPT-3，规模从843M到15B参数不等，实验结果显示相比于最先进的方法有显著的改进。例如，领先的方法在Wikitext上的困惑度（PPL）达到10或更高，而密集模型的困惑度为5.12 PPL，但MaskLLM仅通过学习冻结权重的掩码就达到了显著更低的6.72 PPL。此外，MaskLLM的可学习特性允许为下游任务或领域的2:4稀疏性应用定制掩码而无损失。