Fuyu-8B：是一个多模态人工智能模型Fuyu-8B的设计-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

IT界那些事儿

2 年前

truetechforward

Fuyu-8B：是一个多模态人工智能模型

Fuyu-8B 的设计目的是为了支持数字代理，即能够代表用户执行任务的智能系统。主要功能主要集中在图像和文本的理解，以及它们之间的关联。

- 能理解科学图解、图表和图形
- 不到 100 毫秒的时间内处理大图像
- 自然图像标注
- 回答基于用户界面的问题

项目地址：https://adept.ai/blog/fuyu-8b
模型下载：https://huggingface.co/adept/fuyu-8b
在线体验：https://huggingface.co/spaces/adept/fuyu-8b-demo
官网：https://adept.ai

工作原理：

Fuyu-8B 是一个纯解码器（decoder-only）的变换器模型，没有图像编码器（image encoder）。图像块（patches）被线性投影到变换器的第一层，绕过了嵌入查找（embedding lookup）。

这种简化允许模型支持任意图像分辨率。模型将图像标记（tokens）的序列视为文本标记的序列。它去除了图像特定的位置嵌入，并按栅格扫描顺序输入尽可能多的图像标记。

应用场景：

计算机控制或数字代理应用：由于其多模态能力，Fuyu-8B 可以用于创建能够理解和生成文本和图像的数字代理。

多模态模型研究：由于其简单的架构和训练过程，Fuyu-8B 可以作为多模态模型研究的一个有用工具。

实验结果：

在 VQAv2（视觉问题回答）任务上，Fuyu-8B 的得分为 74.2。

在 OKVQA 任务上，得分为 60.6。

在 COCO Captions 任务上，得分为 141。

这些结果表明，尽管 Fuyu-8B 是一个相对小型和简单的模型，但它在多个标准图像理解基准测试上的表现都相当不错。

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

🚨全球最大的开源AI模型库 #HuggingFace 被墙！这家价值45亿美元的初创公司表示，对于法规无能为力。该平台托管着超过 365,000 个开源人工智能模型。Hugging Face 的发言人在周五的一封电子邮件中表示：“中国的人工智能社区非常出色，我们希望他们能更好地访问 HF，但目前我们对于政府的法规无能为力。”目前尚不清楚 Hugging Face 何时首次受到了中国的审查。早在今年五月起，中国用户就在该公司的论坛上抱怨连接问题。时事通讯 ChinaTalk 周三报道称，至少从 9 月 12 日起，Hugging Face 在中国就完全无法使用。详细：https://news.yahoo.com/open-source-ai-platform-hugging-202603150.html