DoRA（权重分解低秩适应）：一种新颖的模型微调方法DoRA-CSDN blink-领先的开发者技术社区

UFO：由微软开发的专注于Windows操作系统交互的UI代理UFO：由微软开发的专注于Windows操作系统交互的UI代理它可以通过理解用户的自然语言指令和屏幕的视觉内容，自动执行一系列复杂的任务。比如“删除Word文档中的所有图片”或“在PowerPoint文稿中添加一个新幻灯片”。它结合了GPT 4-V，能够理解和Windows应用程序的图形用户界面（GUI）并执行操作。UFO能够在Windows应用程序中执行各种操作，如点击按钮、填写表单、浏览文件等，就好像一个人在使用鼠标和键盘操作电脑一样。视频演示为：删除PowerPoint演示文稿上的所有注释。主要能力：1、跨应用程序操作：UFO能够在Windows操作系统中的多个应用程序之间无缝导航和操作。这意味着它可以根据任务需求，在不同的应用程序中执行一系列动作，如从Word文档提取信息，然后使用这些信息在Outlook中撰写并发送电子邮件。2、自然语言命令执行：用户可以通过自然语言指令告诉UFO需要完成的任务。UFO理解这些指令，并将它们转换为具体的GUI操作，无需用户手动干预。3、自动化控制交互：UFO包含一个控制交互模块，能够将视觉模型识别的动作转化为对应用程序控件的实际操作。这个功能使UFO能够在应用程序中自动点击按钮、输入文本等。4、应用程序选择：UFO采用双代理框架中的应用程序选择代理（AppAgent）来决定哪个应用程序最适合完成用户的请求。这包括在任务需要时切换到不同的应用程序。5、动作选择与执行：动作选择代理（ActAgent）负责在选定的应用程序中选择并执行具体的动作，直到任务完成。它利用屏幕截图和控件信息来确定下一步的最佳操作。6、多模态输入处理：UFO能够处理和解析图像（屏幕截图）和文本信息，以理解当前的GUI状态并作出决策。7、自定义任务和控件：UFO高度可扩展，允许用户设计和自定义特定任务的动作和控件，增强了其在不同应用程序和使用场景下的通用性和灵活性。GitHub：

https://github.com/microsoft/UFO

https://arxiv.org/abs/2402.07939