纽约大学研究人员推出了Cambrian-1:通过以视觉为中心的大型语言模型提升多模态人工智能的现实表现和集成
传统上,AI中的视觉表示使用ImageNet图像分类或COCO目标检测等基准进行评估。这些方法专注于特定任务,多模态大型语言模型(MLLMs)在整合视觉和文本数据方面的能力需要全面评估。纽约大学研究人员推出了Cambrian-1,这是一种以视觉为中心的MLLM,旨在增强视觉特征与语言模型的集成,以解决上述问题。该模型包括纽约大学的贡献,并结合了各种视觉编码器和一个独特的连接器,称为空间视觉聚合器(SVA)。
Cambrian-1模型使用SVA动态连接高分辨率的视觉特征与语言模型,减少了token数量并增强了视觉基础。此外,该模型使用了一个新整理的视觉指令调优数据集CV-Bench,将传统的视觉基准转换为视觉问答格式。这种方法允许在MLLM框架内全面评估和训练视觉表示。
阅读我们对此的完整看法:https://www.marktechpost.com/2024/06/26/nyu-researchers-introduce-cambrian-1-advancing-multimodal-ai-with-vision-centric-large-language-models-for-enhanced-real-world-performance-and-integration/
论文:https://arxiv.org/abs/2406.16860
项目:https://cambrian-mllm.github.io/
HF页面:https://huggingface.co/collections/nyu-visionx/cambrian-data-6667ce801e179b4fbe774e11
代码:https://github.com/cambrian-mllm/cambrian
@干就行了 @秋千千
- 复制链接
- 举报