Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务包括支持图像和短视频字幕、视觉问答、图像文本理解、物体检测文件图表解读、图像分割等任务。PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。