而多模态模型CogAgent，可接受1120×1120的高分-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

3 年前

trueuniverssky2015

而多模态模型 CogAgent，可接受1120×1120的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent等多种能力，在9个经典的图像理解榜单上（含VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE等）取得了通用能力第一的成绩，并在涵盖电脑、手机的GUI Agent数据集上（含Mind2Web，AITW等），大幅超过基于LLM的Agent，取得第一。为了更好地促进多模态大模型、Agent社区的发展，我们已将CogAgent-18B开源至GitHub仓库（申请可免费商用），并提供了网页版Demo。论文：https://arxiv.org/abs/2312.08914Demo：http://36.103.203.44:7861/代码：https://github.com/THUDM/CogVLM模型：* Huggingface：https://huggingface.co/THUDM/cogagent-chat-hf* 魔搭社区：https://modelscope.cn/models/ZhipuAI/cogagent-chat

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

刚刚发了一篇关于《Rust-在Yew中生成列表以及它相关的技术》 https://zhuanlan.zhihu.com/p/673715080