论文《眼睛睁开了吗?探索多模态大型语言模型的视觉缺陷》解释了为什么能够处理文本和图像的多模态模型在被要求对图片进行简单提问时有时会失败。问题即使是最新的处理图像和文本的AI模型,如GPT-4V,在被问及关于图像的基本问题时也经常出错。例如,它们可能无法正确识别物体或理解它们在图像中的位置。为什么当前的方法会失败当前的方法主要依赖于一个叫做CLIP的系统。CLIP通过将图像与文本描述配对来创建对两者的联合理解。然而,CLIP有一个重大缺陷:它可能会产生所谓的“CLIP盲配对”。CLIP盲配对定义:CLIP盲配对是CLIP认为非常相似的一组图像,尽管它们非常不同。示例:想象两张图片,一张是猫,一张是狗。假设CLIP认为这些图片相似,因为它们都有毛茸茸的动物。在这种情况下,它可能会将它们视为几乎相同,尽管猫和狗是非常不同的。影响:这种混淆导致了糟糕的视觉表示。当多模态模型尝试回答这些图像的问题时,它可能会混淆细节或提供错误的答案,因为它并没有真正理解视觉差异。这些与CLIP盲配对相关的问题会传递到使用CLIP作为视觉骨干的更高级模型中。因此,这些模型:• 给出错误的答案:它们可能会误认物体或误解它们在图像中的位置。• 幻觉解释:它们有时会为它们的错误答案编造解释,这可能会误导人们。解决方案:特征混合(MoF)为了应对CLIP盲配对的问题,研究人员开发了特征混合(MoF)方法。该方法旨在通过整合来自另一个名为DINOv2的模型的更好视觉表示来改善多模态模型的视觉理解。特征混合的改进:• 加法特征混合(A-MoF):这种方法将CLIP的特征与另一个更擅长理解图像的系统DINOv2的特征相结合。这改善了模型看待图像的方式,但可能会降低其执行指令的能力。• 交错特征混合(I-MoF):这种方法混合了CLIP和DINOv2的特征,以保持模型在理解图像和执行指令方面的能力。为什么它更好特征混合方法提供了几个好处:• 更好的图像理解:通过使用DINOv2的特征,模型在识别图像细节方面变得更好。• 平衡的技能:交错特征混合方法有助于模型在理解图像和执行文本指令方面保持良好。• 更少的错误:它减少了当前方法在区分不相似图像时的混淆导致的错误。论文中建议的改进非常重要,因为它们使高质量的视觉理解变得更加可访问和可靠。