热门
最新
红包
立Flag
投票
同城
我的
发布
「OtterHD:高分辨率多模态模型」
链接:https://arxiv.org/abs/2311.04219v1
在本文中,我们介绍了OtterHD-8B,这是一个创新的多模型模型,是从Fuyu-8B进化而来,专门用于以精确的粒度解释高分辨率的视觉输入。与受到固定大小视觉编码器约束的传统模型不同,OtterHD-8B能够处理灵活的输入尺寸,确保其在各种推理需求中的多功能性。除了该模型外,我们还介绍了MagnifierBench,这是一个评估框架,旨在审查模型识别小物体的微小细节和空间关系的能力。我们的比较分析显示,尽管当前领先的模型在这个基准测试上表现不佳,但是OtterHD-8B,特别是在直接处理高分辨率输入时,表现比其他模型更好。这些发现揭示了不同模型之间视觉信息处理的结构差异,以及视觉编码器的预训练分辨率差异对模型在此类基准测试中有效性的影响。我们的研究强调了大型多模型模型中的灵活性和高分辨率输入能力的关键作用,也展示了Fuyu架构在处理复杂视觉数据方面的潜力和简单性。
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报