热门
最新
红包
立Flag
投票
同城
我的
发布
论文分享:《多模态 AI 基本都是瞎子》研究人员对OpenAI, Google, Anthropic 的最新模型GPT-4o, Gemini-1.5, Claude-3.5-sonnet 等进行视力测试。发现模型在基本视觉任务上频繁犯错,甚至不如近视人类:
- 无法确定两条线是否相交
- 无法知道两个图形是否重叠
- 无法辨认哪个字被圈中
- 数不清楚一个网格有多少行多少列
结论:目前视觉 AI 的常用测试数据集(MMMU, DocVQA, ChartQA, AI2D 等等)远不能代表现实生活的使用场景,模型虽然在数据集上得分很高,但是在生活中的实际表现却相差甚远。
值得一提的是其中一个数据集 MMMU,有 42.9% 的问题都可以直接通过文字内容推测出正确答案,质量非常堪忧。
论文链接:https://arxiv.org/pdf/2407.06581v1
测试模型:
- GPT-4o
- Gemini-1.5 pro
- Gemini-1.5
- Claude-3-sonnet
- Claude-3.5-sonnet
CSDN App 扫码分享
1
21
- 复制链接
- 举报
下一条:
GPT-4o mini 的价格比 GPT-3.5 Turbo 便宜 60%。这太疯狂了!该模型的价格为每百万输入标记 $0.15,每百万输出标记 $0.60(约 2500 页的书)。相比之下,GPT-3.5-turbo-0301 在大约一年前的价格是每百万标记 $2.00。按照混合定价(80% 输入标记和 20% 输出标记),GPT-4o 的成本降到了每百万标记 $0.24。根据一些测试,这个模型在信息结构化、长上下文理解、函数调用方面表现良好,并且具有出色的视觉能力。我在这里对 GPT-4o mini 进行了详细的概述以及一些测试案例:https://youtu.be/FNa1-OKN3yU?si=GmLcqrBV7W9-Joy6正如公告中所述,GPT-4o mini 的每个标记成本自 text-davinci-003 以来下降了 99%。如果这是一个趋势,几个月后我们会处于什么位置?