热门
最新
红包
立Flag
投票
同城
我的
发布
InternVL:GPT-4V的开源可商用替代方案
InternVL是迄今为止最接近GPT-4V性能的可商用开源模型。
InternVL不仅能够处理图像和文本数据,还能理解它们之间的复杂联系,例如图像中物体与相关描述之间的对应关系。
在OCR和文档理解方面,该模型特别擅长,能有效识别和解释文档图像中的文字,并支持最高4K分辨率的输入。
InternVL还可以与现有的大型语言模型整合,共同创建功能丰富的多模态对话系统。
InternVL 1.5在多项关键基准测试中表现出色,包括文档理解(DocVQA)、图表分析(ChartQA)和数学视觉问答(MathVista)等方面。在这些测试中,InternVL 1.5不但能与现有的顶尖商业模型如GPT-4V和Gemini Pro竞争,有时甚至能超过它们。
详细介绍:https://xiaohu.ai/p/6958
GitHub:https://github.com/OpenGVLab/InternVL
CSDN App 扫码分享
6
66
- 复制链接
- 举报
下一条:
一般