论文分享：《多模态AI基本都是瞎子》研究人员对OpenAI,-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyquinnleng

论文分享：《多模态 AI 基本都是瞎子》研究人员对OpenAI, Google, Anthropic 的最新模型GPT-4o, Gemini-1.5, Claude-3.5-sonnet 等进行视力测试。发现模型在基本视觉任务上频繁犯错，甚至不如近视人类：

- 无法确定两条线是否相交
- 无法知道两个图形是否重叠
- 无法辨认哪个字被圈中
- 数不清楚一个网格有多少行多少列

结论：目前视觉 AI 的常用测试数据集（MMMU, DocVQA, ChartQA, AI2D 等等）远不能代表现实生活的使用场景，模型虽然在数据集上得分很高，但是在生活中的实际表现却相差甚远。

值得一提的是其中一个数据集 MMMU，有 42.9% 的问题都可以直接通过文字内容推测出正确答案，质量非常堪忧。

论文链接：https://arxiv.org/pdf/2407.06581v1

测试模型：

- GPT-4o
- Gemini-1.5 pro
- Gemini-1.5
- Claude-3-sonnet
- Claude-3.5-sonnet

CSDN App 扫码分享

分享

1

21

复制链接
举报

下一条：

GPT-4o mini 的价格比 GPT-3.5 Turbo 便宜 60%。这太疯狂了！该模型的价格为每百万输入标记 $0.15，每百万输出标记 $0.60（约 2500 页的书）。相比之下，GPT-3.5-turbo-0301 在大约一年前的价格是每百万标记 $2.00。按照混合定价（80% 输入标记和 20% 输出标记），GPT-4o 的成本降到了每百万标记 $0.24。根据一些测试，这个模型在信息结构化、长上下文理解、函数调用方面表现良好，并且具有出色的视觉能力。我在这里对 GPT-4o mini 进行了详细的概述以及一些测试案例：https://youtu.be/FNa1-OKN3yU?si=GmLcqrBV7W9-Joy6正如公告中所述，GPT-4o mini 的每个标记成本自 text-davinci-003 以来下降了 99%。如果这是一个趋势，几个月后我们会处于什么位置？