热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
1
7
打赏
- 复制链接
- 举报
下一条:
数据与基准测试确实是推动我们AI创新的燃料!非常高兴地分享,我们有五篇论文被NeurIPS 2024 D&B track接受了!我非常自豪能够为这些开创性的项目做出贡献:1. 危机中的同意:AI数据公地的快速衰退对AI训练语料库如C4、RefinedWeb和Dolma使用的14,000个网页域名的同意协议进行的首次广泛、全面的审计。https://arxiv.org/pdf/2407.149332. OSWorld:在真实计算机环境中为开放式任务评估多模态代理在Ubuntu、Windows和macOS上为多模态代理提供一个统一的、真实的计算机环境,以评估具有任意应用程序和界面的开放式计算机任务。https://arxiv.org/abs/2404.079723. APIGen:生成可验证和多样化函数调用数据集的自动化管道一个自动化数据生成管道,旨在为函数调用应用程序生成可验证的高质量数据集。https://arxiv.org/abs/2406.185184. Spider2-V:多模态代理在自动化数据科学和工程工作流程上还有多远?第一个关于专业数据科学和工程工作流程的多模态代理基准测试。https://arxiv.org/abs/2407.109565. MINT-1T:将开源多模态数据扩展10倍:一个具有一万亿个文本标记的多模态数据集一个交错的多模态数据集,包含一万亿个文本标记和三十亿张图片,是现有开源数据集的10倍扩展。https://arxiv.org/pdf/2406.11271感谢我所有的合作者!🙏🙏温哥华见!
