我们一直在通过控制提示、采样、输出解析等因素,用统一的设置重新评估大型语言模型(LLMs)。介绍🔥 ZeroEval:一个简单的统一框架,用于评估LLMs。最初的两个任务是MMLU-Redux和GSM。顺便说一句,GPT-4o-mini @懒得和狗讲道理 非常棒。[1/n]Github: https://github.com/yuchenlin/ZeroEval