Ovis-1.6：一种开源的多模态大语言模型(MLLM)架构-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_40912980

Ovis-1.6：一种开源的多模态大语言模型 (MLLM) 架构，旨在结构上对齐视觉和文本嵌入

来自阿里巴巴集团和南京大学的研究团队介绍了一个新版本的Ovis：Ovis 1.6 是一个新的多模态大语言模型 (MLLM)，通过结构上对齐视觉和文本嵌入来解决这一挑战。Ovis 采用了独特的视觉嵌入查找表，类似于用于文本嵌入的查找表，以创建结构化的视觉表示。该查找表使视觉编码器能够生成与文本嵌入兼容的嵌入，从而更有效地整合视觉和文本信息。该模型还利用了概率性标记，用于将视觉补丁多次映射到视觉嵌入表中。这种方法模仿了文本数据中使用的结构化表示，促进了视觉和文本输入的连贯组合。

Ovis 的核心创新在于使用视觉嵌入表将视觉标记与文本对应物对齐。每个图像补丁由一个概率性标记表示，并多次索引视觉嵌入表以生成最终的视觉嵌入。此过程捕捉到每个视觉补丁的丰富语义，生成的嵌入在结构上与文本标记相似。与依赖线性投影将视觉嵌入映射到联合空间的传统方法相比，Ovis 采用了概率性方法生成更有意义的视觉嵌入。此方法使 Ovis 能够克服基于连接器的架构的限制，在多模态任务中取得更好的性能...

阅读我们的完整看法：https://www.marktechpost.com/2024/09/29/ovis-1-6-an-open-source-multimodal-large-language-model-mllm-architecture-designed-to-structurally-align-visual-and-textual-embeddings/

论文：https://arxiv.org/abs/2405.20797

HF 模型：https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

CSDN App 扫码分享

分享

评论

11

复制链接
举报

下一条：

通过分析脑电波，这项技术可能会彻底改变痴呆症的检测，为早期干预和神经健康的先进研究带来希望。🧠💡https://ow.ly/za0R50Tvisq