热门
最新
红包
立Flag
投票
同城
我的
发布
InternVL:GPT-4V开源替代方案
最接近 GPT-4V 表现的可商用开源模型
InternVL 不仅可以处理图像和文本数据,还能理解它们之间的复杂关系,如图像中的对象与相关描述的对应。
特别在 OCR 和文档理解方面,模型能够有效识别和解释文档图像中的文字,支持高达 4K 分辨率的输入。
InternVL 还能够与现有的大语言模型整合,共同创建功能丰富的多模态对话系统。
InternVL 1.5 在多个重要的基准测试上表现卓越,包括文档理解(DocVQA)、图表分析(ChartQA)、数学视觉问答(MathVista)等方面。在这些测试中,InternVL 1.5 不仅与现有的顶尖商业模型如 GPT-4V 和 Gemini Pro 竞争,甚至在某些情况下超越它们。
GitHub:https://github.com/OpenGVLab/InternVL
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报