按要求输入-CSDN blink-领先的开发者技术社区

Salesforce AI 推出 SFR-Judge：由三种规模分别为 80 亿（8B）、120 亿（12B）和 700 亿（70B）参数组成的 Judge 模型家族，基于 Meta Llama 3 和 Mistral NeMO 构建Salesforce AI 研究团队推出了 SFR-Judge，一个由三种基于大型语言模型（LLM）的 Judge 模型组成的家族，旨在彻底改变对 LLM 输出的评估方式。SFR-Judge 使用了 Meta Llama 3 和 Mistral NeMO 构建，提供了三种不同规模：80 亿（8B）、120 亿（12B）和 700 亿（70B）参数。每个模型都设计用于执行多种评估任务，如成对比较、单一评分和二元分类。这些模型是为了帮助研究团队快速有效地评估新的 LLM 而开发的。SFR-Judge 模型在三个评估任务中的 13 个基准上进行了测试，显示出优于现有 Judge 模型（包括 GPT-4o 等专有模型）的卓越性能。值得注意的是，SFR-Judge 在 13 个基准中的 10 个上取得了最佳表现，树立了 LLM 评估的新标准。例如，在 RewardBench 排行榜上，SFR-Judge 达到了 92.7% 的准确率，标志着任何生成式 Judge 模型首次和第二次突破 90% 的门槛。这些结果突显了 SFR-Judge 不仅作为评估模型的有效性，还作为一种奖励模型，能够在从人类反馈中进行强化学习（RLHF）场景中指导下游模型。阅读我们的完整文章：

https://www.marktechpost.com/2024/09/28/salesforce-ai-introduces-sfr-judge-a-family-of-three-judge-models-of-8-billion-parameters-8b-12b-and-70b-size-built-with-meta-llama-3-and-mistral-nemo/

https://arxiv.org/abs/2409.14664@Cynthia