这款新的EMOVA全模态LLM据报道在14项视觉语言基准测试中超越了GPT-4V和Gemini 1.5 Pro中的10项。它使用了连续视觉编码器和语义-声学分离的语音标记器,实现了无缝的全模态对齐和语音风格可控性。它利用了一种高效的以文本为中心的全模态对齐,进一步提升了视觉语言和语音的能力。似乎是一个很有趣的项目(有一个演示页面),但是否会发布尚无详细信息。如果社区能够访问,这可能是一个不错的模型构建基础。