是谁在运转？当然是自己，所以自己是主宰，创业者应该对自己负责-CSDN blink-领先的开发者技术社区

阿里巴巴多模态模型Qwen-VL升级更新：Qwen-VL-Plus和Qwen-VL-Max。- 在多个文本-图像多模态任务上与Gemini Ultra和GPT-4V相当。- Qwen-VL-Max在中文问答和中文文本理解任务上超越了GPT-4V和Gemini- 图像相关推理能力上的大幅提升；- 在识别、提取和分析图像及其中文本细节上的显著增强；- 支持超过一百万像素的高清图像和各种宽高比的图像的处理。模型介绍：Qwen-VL-Plus：针对细节识别能力和文本识别能力进行了显著升级，支持高达数百万像素的超高像素分辨率和图像输入的任意宽高比。在广泛的视觉任务上提供了显著的性能提升。Qwen-VL-Max：与增强版相比，进一步改进了视觉推理和指令跟随能力，提供了更高级别的视觉感知和认知理解。在更广泛的复杂任务上提供了最优性能。测试了下Gif图也能识别....挺厉害...详细介绍：

https://qwenlm.github.io/blog/qwen-vl/

https://huggingface.co/spaces/Qwen/Qwen-VL-Max