LLMs在相同任务上的评估方式多种多样!🤯✨ 我们推出了OLMES —— 一个开放、实用、完全记录的标准化可重现LLM评估方法,可应用于当前的排行榜和评估代码库!✨📜 https://arxiv.org/abs/2406.084461/