热门
最新
红包
立Flag
投票
同城
我的
发布
Openstory++
一个大规模数据集和实例感知开放域视觉讲故事的基准
讨论:https://huggingface.co/papers/2408.03695
最近的图像生成模型在从简短的标题生成高质量图像方面表现出色。然而,当遇到较长的上下文时,它们无法在多张图像之间保持多个实例的一致性。这种不一致主要是因为现有训练数据集中缺乏细粒度实例特征标签。为了解决这些问题,我们引入了Openstory++,这是一个大规模数据集,结合了额外的实例级注释以及图像和文本。此外,我们开发了一种训练方法,强调以实体为中心的图像-文本生成,确保模型能够有效地交织视觉和文本信息。具体来说,Openstory++简化了从开放域视频中提取关键帧的过程,利用视听模型生成标题,然后通过大型语言模型进行润色以保持叙述连贯性。与之前的数据集相比,Openstory++提供了更广泛的开放域资源,其中包括自动标题、高分辨率图像(针对实例数量进行了调整)和用于时间一致性的广泛帧序列。此外,我们推出了Cohere-Bench,这是一个开创性的基准框架,用于评估在提供长多模态上下文时的图像生成任务,包括保持背景、风格和实例在给定上下文中的一致性。与现有基准相比,我们的工作填补了多模态生成的关键空白,推动了能够熟练生成和解释复杂叙述的模型的发展。在Cohere-Bench中进行的实验证实,Openstory++在培养高质量视觉讲故事模型方面的优越性,提高了它们解决开放域生成任务的能力。
CSDN App 扫码分享
评论
11
- 复制链接
- 举报
下一条:
RayGauss基于体积高斯的光线投射用于逼真的新视图合成讨论:https://huggingface.co/papers/2408.03356基于可微分体积渲染的方法在新视图合成方面取得了显著进展。一方面,创新的方法用局部参数化结构取代了神经辐射场(NeRF)网络,从而在合理的时间内实现高质量的渲染。另一方面,这些方法采用可微分的散射替代NeRF的光线投射,利用高斯核来快速优化辐射场,从而能够细致适应场景。然而,不规则间隔核的可微分光线投射很少被探索,而散射尽管能够实现快速渲染,但容易出现明显的伪影。我们的工作通过提供一种物理一致的发射辐射c和密度σ的分解公式,填补了这一空白,该公式使用与所有频率的颜色表示相关的球形高斯/谐波进行分解。我们还介绍了一种方法,该方法使用一种算法进行不规则分布高斯的可微分光线投射,该算法逐层集成辐射场并利用BVH结构。这样,我们的方法能够精细地适应场景,同时避免散射伪影。因此,我们在保持合理训练时间的同时,实现了比最先进技术更高的渲染质量,并在Blender数据集上实现了25 FPS的推理速度。