我们还展示了如何使用SFR-Judge改进原生指令微调模型。-CSDN blink-领先的开发者技术社区

介绍 🔥SFR-Judge🔥，一系列专门用于批判和判断其他语言模型响应的LLM家族。Judge模型有许多重要的用途，从自动评估到模型输出的重新排序，再到作为下游模型开发的奖励模型。SFR-Judge有3个尺寸（8B、12B和70B），并且在三个评估任务中表现出色：成对比较（“响应A是否优于响应B？”）、单一评分（“在1-5的李克特量表上评分响应”）和分类（“模型响应是否符合期望标准？”）。我们在对应不同场景的各种判断任务上评估SFR-Judge，如奖励建模、摘要质量和安全性。总体而言，SFR-Judge展示了最佳整体性能，同时比其他模型表现出更少的判断偏见。📘 论文:

https://arxiv.org/abs/2409.14664

https://blog.salesforceairesearch.com/sfr-judge/