热门

最新

红包

立Flag

投票

同城

我的

发布
lssbk
#卢松松#
2 年前
truelssbk

微信指数,移民搜索上涨十倍,百度指数好像不让看这个词了,不知道发生了什么… ​

CSDN App 扫码分享
分享
评论
2
打赏
  • 复制链接
  • 举报
下一条:
【大视觉语言模型基准数据集ReForm-Eval:新瓶装旧酒,给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型】复旦DISC实验室推出了ReForm-Eval,一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构,构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点:构建了横跨8个评估维度,并为每个维度提供足量的评测数据(平均每个维度4000余条);具有统一的评测问题形式(包括单选题和文本生成问题);方便易用,评测方法可靠高效,且无需依赖ChatGPT等外部服务;高效地利用了现存的数据资源,无需额外的人工标注,并且可以进一步拓展到更多数据集上。论文链接:https://arxiv.org/abs/2310.02569
立即登录