热门

最新

红包

立Flag

投票

同城

我的

发布
m0_46163918
程序员的店小二
1 年前
truem0_46163918

InternVL:GPT-4V开源替代方案

最接近 GPT-4V 表现的可商用开源模型

InternVL 不仅可以处理图像和文本数据,还能理解它们之间的复杂关系,如图像中的对象与相关描述的对应。

特别在 OCR 和文档理解方面,模型能够有效识别和解释文档图像中的文字,支持高达 4K 分辨率的输入。

InternVL 还能够与现有的大语言模型整合,共同创建功能丰富的多模态对话系统。

InternVL 1.5 在多个重要的基准测试上表现卓越,包括文档理解(DocVQA)、图表分析(ChartQA)、数学视觉问答(MathVista)等方面。在这些测试中,InternVL 1.5 不仅与现有的顶尖商业模型如 GPT-4V 和 Gemini Pro 竞争,甚至在某些情况下超越它们。

GitHub:
https://github.com/OpenGVLab/InternVL

AI资讯
CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条:
SD模型分享:Counterfeit-V3.0(动漫)
立即登录