了不起的工作——阅读她的推文和论文!她使用了一种基于GPT-4的度量标准,并且能够显著提高分数。然后,她更深入地研究了这些提升与学习者偏好的对齐程度。如果有足够的数据,甚至可以根据用户偏好来优化度量标准。