热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
1
8
- 复制链接
- 举报
下一条:
介绍 🔥SFR-Judge🔥,一系列专门用于批判和判断其他语言模型响应的LLM家族。Judge模型有许多重要的用途,从自动评估到模型输出的重新排序,再到作为下游模型开发的奖励模型。SFR-Judge有3个尺寸(8B、12B和70B),并且在三个评估任务中表现出色:成对比较(“响应A是否优于响应B?”)、单一评分(“在1-5的李克特量表上评分响应”)和分类(“模型响应是否符合期望标准?”)。我们在对应不同场景的各种判断任务上评估SFR-Judge,如奖励建模、摘要质量和安全性。总体而言,SFR-Judge展示了最佳整体性能,同时比其他模型表现出更少的判断偏见。📘 论文: https://arxiv.org/abs/2409.14664🧠 博客: https://blog.salesforceairesearch.com/sfr-judge/