我们一直在通过控制提示、采样、输出解析等因素，用统一的设置重-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truedevbillyuchenlin

我们一直在通过控制提示、采样、输出解析等因素，用统一的设置重新评估大型语言模型（LLMs）。介绍🔥 ZeroEval：一个简单的统一框架，用于评估LLMs。最初的两个任务是MMLU-Redux和GSM。顺便说一句，GPT-4o-mini @懒得和狗讲道理非常棒。[1/n]

Github: https://github.com/yuchenlin/ZeroEval

CSDN App 扫码分享

分享

11

110

复制链接
举报

下一条动态