苹果开源了一个图像编辑模型:MGIE
它可以通过文字提示来编辑任何图像。
你只需要描述你想对图像进行如何的编辑操作,它就能帮你自动编辑完成,无需复杂的手动编辑过程。
比如说,“让天空变成粉红色”,或者“在这张照片中加一个恐龙”。
它可以实现改变颜色、添加物体或调整、移除图片中的某些元素等操作。
工作原理:
MGIE通过结合多模态大语言模型(MLLM)和图像编辑模型,实现基于指令的图像编辑。
用户提供自然语言指令,MGIE利用MLLM理解这些指令的视觉含义,并将其转换为具体的图像编辑任务。
然后,编辑模型根据这些指令对图像进行修改,通过端到端训练同时捕获视觉想象和执行操作,提高编辑的准确性和一致性。
主要功能特点:
1、基于指令的图像编辑:MGIE允许用户通过简单的文本指令来修改图像,例如改变物体的颜色、添加或移除图像中的元素等,无需复杂的手动编辑过程。
2、自然语言理解:通过整合多模态大语言模型(MLLM),MGIE能够理解和解析自然语言中的编辑指令,将用户的描述转化为具体的图像编辑动作。
3、视觉和文本信息的整合:MGIE结合了视觉信息和文本指令,利用MLLM在理解指令的同时考虑图像的上下文,实现更准确和符合用户意图的编辑结果。
4、端到端的训练:MGIE通过端到端的训练方法,联合学习图像编辑模型和语言模型,以提高编辑任务的准确性和一致性。
5、MGIE适用于Photoshop风格的修改、全局照片优化和局部编辑等多种图像编辑任务,展现了其广泛的适用性和灵活性。
项目及演示:https://mllm-ie.github.io
论文: https://openreview.net/forum?id=S1RKWSyZ2Y…
PDF:https://openreview.net/pdf?id=S1RKWSyZ2Y…
GitHub:https://github.com/apple/ml-mgie
在线体验:https://github.com/tsujuifu/pytorch_mgie
- 复制链接
- 举报