听说过聊天机器人竞技场吗?这是一个去中心化的、无偏见的、盲评的顶级语言模型排名系统。用户向两个随机选择(匿名)的语言模型提交一个提示,然后被要求选择最佳回答,将评估转变为一项盲研究。目前,在竞技场中,Claude 3 Opus的排名略微领先于GPT-4 Turbo,而Command R+是评分最高的开源模型。您可以在这里尝试自己的提示(免费)并为评估做出贡献:https://arena.lmsys.org/