热门

最新

红包

立Flag

投票

同城

我的

发布
universsky2015
光子AI
3 年前
trueuniverssky2015

而多模态模型 CogAgent,可接受1120×1120的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent等多种能力,在9个经典的图像理解榜单上(含VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE等)取得了通用能力第一的成绩,并在涵盖电脑、手机的GUI Agent数据集上(含Mind2Web,AITW等),大幅超过基于LLM的Agent,取得第一。为了更好地促进多模态大模型、Agent社区的发展,我们已将CogAgent-18B开源至GitHub仓库(申请可免费商用),并提供了网页版Demo。论文:https://arxiv.org/abs/2312.08914Demo:http://36.103.203.44:7861/代码:https://github.com/THUDM/CogVLM模型:* Huggingface:https://huggingface.co/THUDM/cogagent-chat-hf* 魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-chat

CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
刚刚发了一篇关于《Rust-在Yew中生成列表以及它相关的技术》 https://zhuanlan.zhihu.com/p/673715080
立即登录