微软推出自我探索语言模型:在线对齐的主动偏好引导SELM显著提升了诸如MT-Bench和AlpacaEval 2.0等指令遵循基准测试的性能。仓库: https://github.com/shenao-zhang/SELM摘要: https://arxiv.org/abs/2405.19332