热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40311346
李锦刚
2 年前
trueweixin_40311346

LLMs在相同任务上的评估方式多种多样!🤯

✨ 我们推出了OLMES —— 一个开放、实用、完全记录的标准化可重现LLM评估方法,可应用于当前的排行榜和评估代码库!✨

📜
https://arxiv.org/abs/2406.08446
1/

CSDN App 扫码分享
分享
评论
点赞
  • 复制链接
  • 举报
下一条:
MetaGPT口头报告在ICLR2024
立即登录