热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37992011
imxiaohu
1 年前
trueweixin_37992011

InternVL:GPT-4V的开源可商用替代方案

InternVL是迄今为止最接近GPT-4V性能的可商用开源模型。

InternVL不仅能够处理图像和文本数据,还能理解它们之间的复杂联系,例如图像中物体与相关描述之间的对应关系。

在OCR和文档理解方面,该模型特别擅长,能有效识别和解释文档图像中的文字,并支持最高4K分辨率的输入。

InternVL还可以与现有的大型语言模型整合,共同创建功能丰富的多模态对话系统。

InternVL 1.5在多项关键基准测试中表现出色,包括文档理解(DocVQA)、图表分析(ChartQA)和数学视觉问答(MathVista)等方面。在这些测试中,InternVL 1.5不但能与现有的顶尖商业模型如GPT-4V和Gemini Pro竞争,有时甚至能超过它们。

详细介绍:
https://xiaohu.ai/p/6958
GitHub:https://github.com/OpenGVLab/InternVL

CSDN App 扫码分享
分享
6
66
  • 复制链接
  • 举报
下一条:
一般
立即登录