哇塞,RepoQA啊。这是一个用来评估大型语言模型对代码库理解程度的基准测试。它的内容包括:首先抛出一段代码,然后要求找到并解释用户指定的函数内容,并请求进行复制粘贴。如果大型语言模型能够正确地复制粘贴正确的函数,那么就算是正确的。看了一下排行榜,Claude3的Opus、Sonnet、Haiku占据了前三名。紧随其后的是GPT-4Turbo、Gemini1.5和Mixtral-8x7B。→RT