清华大学合作推出看图答题小能手CogAgent：可告知《原神-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

3 年前

truem0_46163918

清华大学合作推出看图答题小能手 CogAgent：可告知《原神》游戏操作步骤等

12 月 27 日消息，清华 KEG 实验室近日和智谱 AI 合作，联合推出了新一代图像理解大模型 CogAgent。

该模型基于此前推出的 CogVLM，通过视觉 GUI Agent，使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而作出规划和决策。

CogAgent 可以接受 1120×1120 的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，在 9 个经典的图像理解榜单上（含 VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE 等）取得了通用能力第一的成绩。

例如，用户输入一张关于 CogVLM 项目的 GitHub 的图片，然后询问如何给这个项目点“Star”，然后 CogAgent 就会反馈出结果。

例如用户输入一张原神游戏的截图，可以询问“当前任务中的队友是谁？”，CogAgent 会给出相关的回答。

附上相关信息地址如下：

论文：https://arxiv.org/abs/2312.08914

Demo：Streamlit

代码：https://github.com/THUDM/CogVLM

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

谁家的共享单车