苹果开源了一个图像编辑模型：MGIE它可以通过文字提示来编辑-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

苹果开源了一个图像编辑模型：MGIE

它可以通过文字提示来编辑任何图像。

你只需要描述你想对图像进行如何的编辑操作，它就能帮你自动编辑完成，无需复杂的手动编辑过程。

比如说，“让天空变成粉红色”，或者“在这张照片中加一个恐龙”。

它可以实现改变颜色、添加物体或调整、移除图片中的某些元素等操作。

工作原理：

MGIE通过结合多模态大语言模型（MLLM）和图像编辑模型，实现基于指令的图像编辑。

用户提供自然语言指令，MGIE利用MLLM理解这些指令的视觉含义，并将其转换为具体的图像编辑任务。

然后，编辑模型根据这些指令对图像进行修改，通过端到端训练同时捕获视觉想象和执行操作，提高编辑的准确性和一致性。

主要功能特点：

1、基于指令的图像编辑：MGIE允许用户通过简单的文本指令来修改图像，例如改变物体的颜色、添加或移除图像中的元素等，无需复杂的手动编辑过程。

2、自然语言理解：通过整合多模态大语言模型（MLLM），MGIE能够理解和解析自然语言中的编辑指令，将用户的描述转化为具体的图像编辑动作。

3、视觉和文本信息的整合：MGIE结合了视觉信息和文本指令，利用MLLM在理解指令的同时考虑图像的上下文，实现更准确和符合用户意图的编辑结果。

4、端到端的训练：MGIE通过端到端的训练方法，联合学习图像编辑模型和语言模型，以提高编辑任务的准确性和一致性。

5、MGIE适用于Photoshop风格的修改、全局照片优化和局部编辑等多种图像编辑任务，展现了其广泛的适用性和灵活性。

项目及演示：https://mllm-ie.github.io
论文： https://openreview.net/forum?id=S1RKWSyZ2Y…
PDF：https://openreview.net/pdf?id=S1RKWSyZ2Y…
GitHub：https://github.com/apple/ml-mgie
在线体验：https://github.com/tsujuifu/pytorch_mgie

AI资讯

CSDN App 扫码分享

分享

评论

4

打赏

复制链接
举报

下一条：

Apple Vision Pro的内部复杂程度超乎你的想象专利显示2007年苹果就开始研发这个玩意了，陆陆续续十来年了，不是一般公司能持续投入这么久的！所以也是无法被人超越的！