Ovis-1.6:一种开源的多模态大语言模型 (MLLM) 架构,旨在结构上对齐视觉和文本嵌入
来自阿里巴巴集团和南京大学的研究团队介绍了一个新版本的Ovis:Ovis 1.6 是一个新的多模态大语言模型 (MLLM),通过结构上对齐视觉和文本嵌入来解决这一挑战。Ovis 采用了独特的视觉嵌入查找表,类似于用于文本嵌入的查找表,以创建结构化的视觉表示。该查找表使视觉编码器能够生成与文本嵌入兼容的嵌入,从而更有效地整合视觉和文本信息。该模型还利用了概率性标记,用于将视觉补丁多次映射到视觉嵌入表中。这种方法模仿了文本数据中使用的结构化表示,促进了视觉和文本输入的连贯组合。
Ovis 的核心创新在于使用视觉嵌入表将视觉标记与文本对应物对齐。每个图像补丁由一个概率性标记表示,并多次索引视觉嵌入表以生成最终的视觉嵌入。此过程捕捉到每个视觉补丁的丰富语义,生成的嵌入在结构上与文本标记相似。与依赖线性投影将视觉嵌入映射到联合空间的传统方法相比,Ovis 采用了概率性方法生成更有意义的视觉嵌入。此方法使 Ovis 能够克服基于连接器的架构的限制,在多模态任务中取得更好的性能...
阅读我们的完整看法:https://www.marktechpost.com/2024/09/29/ovis-1-6-an-open-source-multimodal-large-language-model-mllm-architecture-designed-to-structurally-align-visual-and-textual-embeddings/
论文:https://arxiv.org/abs/2405.20797
HF 模型:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
- 复制链接
- 举报