热门
最新
红包
立Flag
投票
同城
我的
发布
介绍SFR-Judge,我们的新一代评估模型家族(8B、12B和70B参数)——自动评估和奖励建模的游戏规则改变者。
博客:https://bit.ly/3Y12mTI
论文:https://arxiv.org/pdf/2409.14664
Github:(代码即将发布!):https://bit.ly/4do1KvL
💥 训练以执行成对比较、直接评分和分类判断
💥 在13个基准测试中,在10个项目上表现优于许多开源评估模型
💥 在RewardBench上突破90%准确率——生成模型的首次
💥 在6项关键指标上显示出比许多其他评估模型更少的偏差
💥 在大多数成对比较、直接评分和分类任务上匹敌/超越GPT-4o
用SFR-Judge加速您自己的模型评估!
CSDN App 扫码分享
评论
12
- 复制链接
- 举报