MobileDiffusion：Google开发的一款能在手-CSDN blink-领先的开发者技术社区

苹果开源了一个图像编辑模型：MGIE它可以通过文字提示来编辑任何图像。你只需要描述你想对图像进行如何的编辑操作，它就能帮你自动编辑完成，无需复杂的手动编辑过程。比如说，“让天空变成粉红色”，或者“在这张照片中加一个恐龙”。它可以实现改变颜色、添加物体或调整、移除图片中的某些元素等操作。工作原理：MGIE通过结合多模态大语言模型（MLLM）和图像编辑模型，实现基于指令的图像编辑。用户提供自然语言指令，MGIE利用MLLM理解这些指令的视觉含义，并将其转换为具体的图像编辑任务。然后，编辑模型根据这些指令对图像进行修改，通过端到端训练同时捕获视觉想象和执行操作，提高编辑的准确性和一致性。主要功能特点：1、基于指令的图像编辑：MGIE允许用户通过简单的文本指令来修改图像，例如改变物体的颜色、添加或移除图像中的元素等，无需复杂的手动编辑过程。2、自然语言理解：通过整合多模态大语言模型（MLLM），MGIE能够理解和解析自然语言中的编辑指令，将用户的描述转化为具体的图像编辑动作。3、视觉和文本信息的整合：MGIE结合了视觉信息和文本指令，利用MLLM在理解指令的同时考虑图像的上下文，实现更准确和符合用户意图的编辑结果。4、端到端的训练：MGIE通过端到端的训练方法，联合学习图像编辑模型和语言模型，以提高编辑任务的准确性和一致性。5、MGIE适用于Photoshop风格的修改、全局照片优化和局部编辑等多种图像编辑任务，展现了其广泛的适用性和灵活性。项目及演示：

https://mllm-ie.github.io

https://openreview.net/forum?id=S1RKWSyZ2Y

https://openreview.net/pdf?id=S1RKWSyZ2Y

https://github.com/apple/ml-mgie

https://github.com/tsujuifu/pytorch_mgie