一个聊天机器人基准测试应当区分模型能力,反映现实世界的使用案例,并且频繁更新。介绍Arena-Hard – 一个数据管道,用于从实时数据构建基准测试:https://lmsys.org/blog/2024-04-19-arena-hard/