ConsiStory:无需额外训练的情况下实现连续一致的图像生成。
它能根据多个文本提示,生成一系列既保持主题一致性又具有布局多样性的图像。
也就是你输入多个文本提示,它能基于这些描述一次生成一组图像,类似于一下生成一组漫画的不同场景,但是风格一致。
ConsiStory能够生成具有多个一致主题的图像集。
举例解释:
假设你是一位小说家,正在创作一本关于一位魔法师旅行经历的小说。你想要将这位魔法师的冒险故事视觉化,以增强读者的沉浸感。你决定使用ConsiStory来生成一系列图像,每张图像都基于小说中不同章节的描述。
文本提示一:"魔法师站在古老城堡的废墟上,手持发光的魔杖,远处是满月下的黑暗森林。"
文本提示二:"在繁忙的市集中,魔法师穿着斗篷,悄悄地跟踪一位神秘商人,周围是各式各样的商铺和热闹的人群。"
文本提示三:"在高山的峭壁边,魔法师与一只巨龙面对面,背后是落日的壮丽景色。"
使用ConsiStory生成的图像会保持以下特点:
1、主题一致性:在所有生成的图像中,魔法师这一主题将被一致地呈现。不论是站在城堡废墟、市集中还是高山峭壁边,魔法师的视觉特征(如服装、魔杖等)都会保持一致,让观众能够轻松识别出这一角色。
2、布局多样性:尽管魔法师的视觉特征保持不变,但每张图像根据不同的文本提示展现出了不同的场景布局。在城堡废墟的图像中,背景可能是废墟和黑暗森林;在市集的图像中,背景会充满人群和商铺;而在与巨龙对峙的图像中,背景则是峭壁和落日。每张图像都根据文本提示的不同,展现出独特的场景和情境,同时保持了主角魔法师的一致性。
3、故事连贯性:通过将一系列画面紧密连接,ConsiStory支持讲述一个连贯的故事。每个画面都是基于文本提示生成的,这些文本提示一起构成了整个故事的框架。
通过这种方式,ConsiStory让你能够根据文本提示创造出一系列既保持主题一致性,又具有布局多样性的图像,为你的小说提供了丰富的视觉陪衬,增加了故事的吸引力和表现力。
项目及演示:https://consistory-paper.github.io
论文:https://arxiv.org/abs/2402.03286
GitHub:coming soon...
- 复制链接
- 举报