热门
最新
红包
立Flag
投票
同城
我的
发布
Fuyu-8B:是一个多模态人工智能模型
Fuyu-8B 的设计目的是为了支持数字代理,即能够代表用户执行任务的智能系统。主要功能主要集中在图像和文本的理解,以及它们之间的关联。
- 能理解科学图解、图表和图形
- 不到 100 毫秒的时间内处理大图像
- 自然图像标注
- 回答基于用户界面的问题
项目地址:https://adept.ai/blog/fuyu-8b
模型下载:https://huggingface.co/adept/fuyu-8b
在线体验:https://huggingface.co/spaces/adept/fuyu-8b-demo
官网:https://adept.ai
工作原理:
Fuyu-8B 是一个纯解码器(decoder-only)的变换器模型,没有图像编码器(image encoder)。图像块(patches)被线性投影到变换器的第一层,绕过了嵌入查找(embedding lookup)。
这种简化允许模型支持任意图像分辨率。模型将图像标记(tokens)的序列视为文本标记的序列。它去除了图像特定的位置嵌入,并按栅格扫描顺序输入尽可能多的图像标记。
应用场景:
计算机控制或数字代理应用:由于其多模态能力,Fuyu-8B 可以用于创建能够理解和生成文本和图像的数字代理。
多模态模型研究:由于其简单的架构和训练过程,Fuyu-8B 可以作为多模态模型研究的一个有用工具。
实验结果:
在 VQAv2(视觉问题回答)任务上,Fuyu-8B 的得分为 74.2。
在 OKVQA 任务上,得分为 60.6。
在 COCO Captions 任务上,得分为 141。
这些结果表明,尽管 Fuyu-8B 是一个相对小型和简单的模型,但它在多个标准图像理解基准测试上的表现都相当不错。
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
🚨全球最大的开源AI模型库 #HuggingFace 被墙!这家价值45亿美元的初创公司表示,对于法规无能为力。该平台托管着超过 365,000 个开源人工智能模型。Hugging Face 的发言人在周五的一封电子邮件中表示:“中国的人工智能社区非常出色,我们希望他们能更好地访问 HF,但目前我们对于政府的法规无能为力。”目前尚不清楚 Hugging Face 何时首次受到了中国的审查。早在今年五月起,中国用户就在该公司的论坛上抱怨连接问题。时事通讯 ChinaTalk 周三报道称,至少从 9 月 12 日起,Hugging Face 在中国就完全无法使用。详细:https://news.yahoo.com/open-source-ai-platform-hugging-202603150.html