这款新的EMOVA全模态LLM据报道在14项视觉语言基准测试-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevelvis

这款新的EMOVA全模态LLM据报道在14项视觉语言基准测试中超越了GPT-4V和Gemini 1.5 Pro中的10项。

它使用了连续视觉编码器和语义-声学分离的语音标记器，实现了无缝的全模态对齐和语音风格可控性。

它利用了一种高效的以文本为中心的全模态对齐，进一步提升了视觉语言和语音的能力。

似乎是一个很有趣的项目（有一个演示页面），但是否会发布尚无详细信息。如果社区能够访问，这可能是一个不错的模型构建基础。

CSDN App 扫码分享

分享

3

43

复制链接
举报

下一条：

对LLMs进行完整推理的逻辑思考提出了一种名为逻辑思考（Logic-of-Thought, LoT）的新提示技巧，该技巧采用命题逻辑从输入上下文中生成并注入扩展的逻辑信息。LoT将CoT在ReClor数据集上的表现提升了4.35%。它还将CoT+SelfConsistency在LogiQA上的表现提升了5%。此外，它还将ToT在ProofWriter数据集上的表现提升了8%。