微软推出自我探索语言模型：在线对齐的主动偏好引导SELM显著-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyarankomatsuzaki

微软推出自我探索语言模型：在线对齐的主动偏好引导

SELM显著提升了诸如MT-Bench和AlpacaEval 2.0等指令遵循基准测试的性能。

仓库: https://github.com/shenao-zhang/SELM
摘要: https://arxiv.org/abs/2405.19332

CSDN App 扫码分享

分享

3

39

复制链接
举报

下一条：

Google推出价值激励偏好优化：在线与离线RLHF的统一方法 https://arxiv.org/abs/2405.19320