新博客文章中我讨论了什么使得一个语言模型评估成功,以及“七个罪恶”如何阻碍评估在社区中的推广:https://www.jasonwei.net/blog/evals昨天在斯坦福大学的NLP研讨会上演讲很有趣!