UFO:由微软开发的专注于Windows操作系统交互的UI代理
UFO:由微软开发的专注于Windows操作系统交互的UI代理
它可以通过理解用户的自然语言指令和屏幕的视觉内容,自动执行一系列复杂的任务。
比如“删除Word文档中的所有图片”或“在PowerPoint文稿中添加一个新幻灯片”。
它结合了GPT 4-V,能够理解和Windows应用程序的图形用户界面(GUI)并执行操作。
UFO能够在Windows应用程序中执行各种操作,如点击按钮、填写表单、浏览文件等,就好像一个人在使用鼠标和键盘操作电脑一样。
视频演示为:删除PowerPoint演示文稿上的所有注释。
主要能力:
1、跨应用程序操作:UFO能够在Windows操作系统中的多个应用程序之间无缝导航和操作。这意味着它可以根据任务需求,在不同的应用程序中执行一系列动作,如从Word文档提取信息,然后使用这些信息在Outlook中撰写并发送电子邮件。
2、自然语言命令执行:用户可以通过自然语言指令告诉UFO需要完成的任务。UFO理解这些指令,并将它们转换为具体的GUI操作,无需用户手动干预。
3、自动化控制交互:UFO包含一个控制交互模块,能够将视觉模型识别的动作转化为对应用程序控件的实际操作。这个功能使UFO能够在应用程序中自动点击按钮、输入文本等。
4、应用程序选择:UFO采用双代理框架中的应用程序选择代理(AppAgent)来决定哪个应用程序最适合完成用户的请求。这包括在任务需要时切换到不同的应用程序。
5、动作选择与执行:动作选择代理(ActAgent)负责在选定的应用程序中选择并执行具体的动作,直到任务完成。它利用屏幕截图和控件信息来确定下一步的最佳操作。
6、多模态输入处理:UFO能够处理和解析图像(屏幕截图)和文本信息,以理解当前的GUI状态并作出决策。
7、自定义任务和控件:UFO高度可扩展,允许用户设计和自定义特定任务的动作和控件,增强了其在不同应用程序和使用场景下的通用性和灵活性。
GitHub:https://github.com/microsoft/UFO
论文:https://arxiv.org/abs/2402.07939
- 复制链接
- 举报






