热门
最新
红包
立Flag
投票
同城
我的
发布
Molmo 和 PixMo
开源权重和数据的最新多模态模型
讨论: https://huggingface.co/papers/2409.17146
如今最先进的多模态模型仍然是专有的。最强的开源权重模型在很大程度上依赖于专有视觉语言模型(VLM)的合成数据来实现良好性能,有效地将这些封闭模型转化为开源模型。因此,社区仍然缺乏关于如何从头开始构建高性能VLM的基础知识。我们介绍了Molmo,一个新的VLM家族,它在开放性方面处于同类产品的最前沿。我们的关键创新是一个全新的、高度详细的图像描述数据集,完全由人类注释者使用语音描述收集。为了支持多种用户交互,我们还引入了一种多样化的数据集混合用于微调,其中包括自然环境中的问答和创新的2D指点数据。我们方法的成功依赖于对模型架构细节的精心选择、精心调整的训练流程,最重要的是我们新收集的数据集的质量,所有这些数据集都将公开。Molmo家族中的顶级72B模型不仅在开放权重和数据模型中表现优异,而且在学术基准和人工评估中也优于GPT-4o、Claude 3.5和Gemini 1.5等专有系统。我们将在不久的将来发布所有的模型权重、图像描述和微调数据及源代码。
CSDN App 扫码分享
评论
9
- 复制链接
- 举报
下一条:
DreamWaltz-G从骨架引导的2D扩散生成的表现力3D高斯化身讨论:https://huggingface.co/papers/2409.17145通过利用预训练的2D扩散模型和得分蒸馏采样(SDS),最近的方法在文本到3D化身生成方面显示出有希望的结果。然而,生成能够表现丰富动画的高质量3D化身仍然具有挑战性。在这项工作中,我们提出了DreamWaltz-G,一种从文本生成可动画3D化身的新型学习框架。该框架的核心在于骨架引导的得分蒸馏和混合3D高斯化身表示。具体来说,所提出的骨架引导得分蒸馏将3D人类模板的骨架控制集成到2D扩散模型中,增强了视角和人体姿态的一致性SDS监督。这有助于生成高质量的化身,缓解如多余的面孔、额外的肢体和模糊等问题。所提出的混合3D高斯化身表示基于高效的3D高斯,结合神经隐式场和参数化3D网格,实现了实时渲染、稳定的SDS优化和富有表现力的动画。大量实验表明,DreamWaltz-G在生成和动画3D化身方面非常有效,在视觉质量和动画表现力上均优于现有方法。我们的框架还支持多种应用,包括人类视频再现和多主体场景组合。