热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
1 年前
truetechsavvyarankomatsuzaki

GUICourse:从通用视觉语言模型到多功能GUI代理

介绍:
- 一个数据集,旨在增强VLMs的OCR和基础能力
- 数据集,用于丰富GUI组件和交互的知识

repo:
https://github.com/yiye3/GUICourse
abs: https://arxiv.org/abs/2406.11317

CSDN App 扫码分享
分享
评论
10
  • 复制链接
  • 举报
下一条:
MINT-1T:将开源多模态数据扩展至10倍:一个拥有一万亿标记的多模态数据集- 包含1万亿文本标记和30亿张图片,是现有开源数据集的10倍规模扩展- 其表现可与之前领先的数据集OBELICS训练的模型相媲美https://arxiv.org/abs/2406.11271
立即登录