Molmo和PixMo开源权重和数据的最新多模态模型讨论:h-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

_akhaliq

2 年前

truetechsavvyak

Molmo 和 PixMo

开源权重和数据的最新多模态模型

讨论: https://huggingface.co/papers/2409.17146

如今最先进的多模态模型仍然是专有的。最强的开源权重模型在很大程度上依赖于专有视觉语言模型(VLM)的合成数据来实现良好性能，有效地将这些封闭模型转化为开源模型。因此，社区仍然缺乏关于如何从头开始构建高性能VLM的基础知识。我们介绍了Molmo，一个新的VLM家族，它在开放性方面处于同类产品的最前沿。我们的关键创新是一个全新的、高度详细的图像描述数据集，完全由人类注释者使用语音描述收集。为了支持多种用户交互，我们还引入了一种多样化的数据集混合用于微调，其中包括自然环境中的问答和创新的2D指点数据。我们方法的成功依赖于对模型架构细节的精心选择、精心调整的训练流程，最重要的是我们新收集的数据集的质量，所有这些数据集都将公开。Molmo家族中的顶级72B模型不仅在开放权重和数据模型中表现优异，而且在学术基准和人工评估中也优于GPT-4o、Claude 3.5和Gemini 1.5等专有系统。我们将在不久的将来发布所有的模型权重、图像描述和微调数据及源代码。

下一条：

DreamWaltz-G从骨架引导的2D扩散生成的表现力3D高斯化身讨论：https://huggingface.co/papers/2409.17145通过利用预训练的2D扩散模型和得分蒸馏采样（SDS），最近的方法在文本到3D化身生成方面显示出有希望的结果。然而，生成能够表现丰富动画的高质量3D化身仍然具有挑战性。在这项工作中，我们提出了DreamWaltz-G，一种从文本生成可动画3D化身的新型学习框架。该框架的核心在于骨架引导的得分蒸馏和混合3D高斯化身表示。具体来说，所提出的骨架引导得分蒸馏将3D人类模板的骨架控制集成到2D扩散模型中，增强了视角和人体姿态的一致性SDS监督。这有助于生成高质量的化身，缓解如多余的面孔、额外的肢体和模糊等问题。所提出的混合3D高斯化身表示基于高效的3D高斯，结合神经隐式场和参数化3D网格，实现了实时渲染、稳定的SDS优化和富有表现力的动画。大量实验表明，DreamWaltz-G在生成和动画3D化身方面非常有效，在视觉质量和动画表现力上均优于现有方法。我们的框架还支持多种应用，包括人类视频再现和多主体场景组合。