热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
Salesforce AI 推出 SFR-Judge:由三种规模分别为 80 亿(8B)、120 亿(12B)和 700 亿(70B)参数组成的 Judge 模型家族,基于 Meta Llama 3 和 Mistral NeMO 构建Salesforce AI 研究团队推出了 SFR-Judge,一个由三种基于大型语言模型(LLM)的 Judge 模型组成的家族,旨在彻底改变对 LLM 输出的评估方式。SFR-Judge 使用了 Meta Llama 3 和 Mistral NeMO 构建,提供了三种不同规模:80 亿(8B)、120 亿(12B)和 700 亿(70B)参数。每个模型都设计用于执行多种评估任务,如成对比较、单一评分和二元分类。这些模型是为了帮助研究团队快速有效地评估新的 LLM 而开发的。SFR-Judge 模型在三个评估任务中的 13 个基准上进行了测试,显示出优于现有 Judge 模型(包括 GPT-4o 等专有模型)的卓越性能。值得注意的是,SFR-Judge 在 13 个基准中的 10 个上取得了最佳表现,树立了 LLM 评估的新标准。例如,在 RewardBench 排行榜上,SFR-Judge 达到了 92.7% 的准确率,标志着任何生成式 Judge 模型首次和第二次突破 90% 的门槛。这些结果突显了 SFR-Judge 不仅作为评估模型的有效性,还作为一种奖励模型,能够在从人类反馈中进行强化学习(RLHF)场景中指导下游模型。阅读我们的完整文章:https://www.marktechpost.com/2024/09/28/salesforce-ai-introduces-sfr-judge-a-family-of-three-judge-models-of-8-billion-parameters-8b-12b-and-70b-size-built-with-meta-llama-3-and-mistral-nemo/论文:https://arxiv.org/abs/2409.14664@Cynthia Ke @TIM-9