论文页面:https://huggingface.co/pa-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

论文页面: https://huggingface.co/papers/2407.08683

CSDN App 扫码分享

分享

2

29

复制链接
举报

下一条：

SEED-Story使用大型语言模型进行多模态长篇故事生成随着图像生成和开放形式文本生成的显著进步，交错图像-文本内容的创作已成为一个越来越有趣的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像，已经成为一个有价值且实用的任务，具有广泛的应用。然而，这个任务带来了重大挑战，因为它需要理解文本和图像之间复杂的相互作用，并具备生成长序列连贯、上下文相关的文本和视觉内容的能力。在这项工作中，我们提出了SEED-Story，这是一种利用多模态大型语言模型（MLLM）生成扩展多模态故事的新方法。我们的模型基于MLLM强大的理解能力，预测文本标记以及视觉标记，这些标记随后通过改编的视觉去标记器处理生成具有一致角色和风格的图像。我们进一步提出了多模态注意力汇机制，以高度有效的自回归方式生成最多25个序列的故事（训练时仅为10个）。此外，我们还提出了一个名为StoryStream的大规模高分辨率数据集，用于训练我们的模型并在多方面对多模态故事生成任务进行定量评估。